決策演算法指標
1. 數據結構中評價演算法的兩個重要指標是什麼
數據結構中評價演算法的兩個重要指標是時間復雜度和空間復雜度。
同一問題可用不同演算法解決,而一個演算法的質量優劣將影響到演算法乃至程序的效率。演算法分析的目的在於選擇合適演算法和改進演算法。一個演算法的評價主要從時間復雜度和空間復雜度來考慮。
1、時間復雜度:
演算法的時間復雜度是指執行演算法所需要的計算工作量。一般來說,計算機演算法是問題規模n 的函數f(n),演算法的時間復雜度也因此記做。
2、空間復雜度:
演算法的空間復雜度是指演算法需要消耗的內存空間。其計算和表示方法與時間復雜度類似,一般都用復雜度的漸近性來表示。同時間復雜度相比,空間復雜度的分析要簡單得多。
(1)決策演算法指標擴展閱讀:
評估演算法效率的方法:
1、事後統計方法
這種方法主要是通過設計好的測試程序和數據,利用計算機計時器對不同演算法編制的程序的運行時間進行比較,從而確定演算法效率的高低。
2、事前分析估算方法
在計算機程序編寫前,依據統計方法對演算法進行估算。經過總結,可以發現一個高級語言編寫的程序在計算機上運行時所消耗的時間取決於下列因素:演算法採用的策略、編譯產生的代碼質量、問題的輸入規模、機器執行指令的速度。
參考資料來源:網路-演算法
2. 評價演算法優劣的指標包括演算法的什麼
1、時間復雜度
演算法的時間復雜度是指執行演算法所需要的計算工作量。一般來說,計算機演算法是問題規模n 的函數f(n),演算法的時間復雜度也因此記做。
2、空間復雜度
演算法的空間復雜度是指演算法需要消耗的內存空間。其計算和表示方法與時間復雜度類似,一般都用復雜度的漸近性來表示。同時間復雜度相比,空間復雜度的分析要簡單得多。
3、正確性
演算法的正確性是評價一個演算法優劣的最重要的標准。
4、可讀性
演算法的可讀性是指一個演算法可供人們閱讀的容易程度。
5、健壯性
健壯性是指一個演算法對不合理數據輸入的反應能力和處理能力,也稱為容錯性。
3. 演算法的評價指標包括什麼
一、企業網站評價原則
1、企業網站評價的動態性:由於企業網站本身是一個動態交互的信息平台,因此其評價體系就應當從動態角度出發。
2、企業網站評價的差異性:由於不同行業、不同企業、不同發展階段,其評價標準是不同的。因此在具體的評價過程中,也應當視具體情況具體分析。
3、企業網站評價的整體性:由於企業網站本身的原因,決定了在評價標准中既有可以量化的標准,又有不可量化的標准。因此在評價中,應當遵從整體性的原則。
二、企業網站評價的指標體系
(一)整體評價
1、域名和URL:域名是Internet上的一個伺服器或一個網路系統的名字,在Internet上,沒有同樣的域名,因此,域名具有唯一性。域名是由英文26個字母和10個阿拉伯數字以及橫杠"-"(減號)組成。URL——(Universal Resource Locator)通用資源定位器。一個恰當、精煉的域名對於網站的發展是十分重要的。同時,獨立域名是十分重要的一項指標。
2、鏈接有效性:在企業網站中,鏈接有效性佔有及其重要的地位。無效鏈接會直接影響用戶對網站本身的信任度。在指標評價過程中,鏈接的完備性是也一項十分重要的指標。
3、下載時間:調查顯示,一個網頁的打開時間超過20秒會引起瀏覽者的厭惡感。中國在2002年以撥號方式上網的計算機為1480萬台,占總上網計算機的71% 。因此在實際的評價中,網頁的載入速度應當以撥號方式來進行測評;同時為了簡化評價復雜程度,在實測的過程中,僅考慮首頁的下載時間。
4、網站認證:作為一個合法的企業網站,不僅應當提供工商認證,同時還要提供CA認證。對於某些特定行業,還應該提供各種相應認證。
5、符合網路倫理:所謂網路倫理,是Internet上一種特有的商業道德——即充分尊重用戶的個人意願和個人隱私,對用戶不能有任何的強迫行為。如不首先發送商業信息,不經過授權的修改、公布訪問者的個人資料和信息,或對用戶訪問提出要求和條件。
6、聯系方式:在首頁和網站的各個鏈接上,都需要體統十分詳盡的聯系方式。不但要提供電子郵件、電話、傳真;還要提供公司地址、郵編以及聯系人姓名。
7、更新:網站提供內容和頁面設計的不斷更新;以提高網站的信任度。更為重要的是,最好應當註明網站的最後一次更新時間。
(二)網站設計
1、風格與布局:網站內的所有頁面應當遵從統一的風格。包括統一色彩、統一主題、統一語氣和人稱、統一圖片效果。同時在頁面布局方面,應當加強視覺效果,加強文案的可視性和可讀性。
2、美工與字體:網頁色彩應當均衡,要突現可讀性;同時切忌將所有顏色都用到,一般要求色彩要控制在3種以內。由於中國大陸漢字系統採用GB編碼方式,而台灣地區漢字採用BIG5編碼,而歐美用戶則沒有安裝任何支持漢字的系統;鑒於此,定位於國際性質的網站應當針對不同的目標訪問者,設計不同的字體或語言。
3、動畫與聲音:在頁面上應該慎用動畫和聲音,更不能濫用。因為一方面會影響下載速度,另一方面可能會招致用戶的厭惡和抵觸情緒。
(三)內容提供
1、有用信息
(1) 網站的長期發展是取決於能否長期為訪問者提供有用的信息,這個也是網站自身發展的需要。
(2) 准確性:信息資源與數據是否切實可信。如果涉及一些關於信息來源與知識產權的信息,要註明出處與來源。
2、交互性內容
(1) 提供雙向交流:網站雙向交流的欄目不需要很多,但是作為一個企業網站來說,應當設立如,論壇、留言版、郵件列表之類的欄目;以供瀏覽者留下他們的信息。有調查表明,提供雙向交流站點較簡單地留下一個E-mail地址更有親和力。
(2) FAQ』s:Frequently Asked Questions——常見問題解答;因為企業網站經常收到用戶關於某一方面問題的來信,,應當設立一個常見問題解答,既方面訪問者,也可以節約網站時間和成本。
3、內容頁面長度:網頁內容頁面的長度以不超過3個屏幕高度為佳,因此將篇幅過長的文檔分隔成數篇較小的頁面,可以增加網站的親和力;如果基於特殊理由,應在長頁面上加上一些書簽,以使用戶快速查詢。
(四)網站推廣與其他
1、搜索引擎中的排名:Meta的使用,Meta標簽是紀錄當前頁面信息的元素,如字元解碼、作者、版權、關鍵字等。Meta標簽也提供該伺服器信息,如有效日期和刷新頻率。正是基於Meta的功能,搜索引擎可以自動找到WEB上的信息。
2、適當的關鍵詞:用戶很大程度上搜索目標信息和企業網站習慣於通過搜索引擎。所以一些具有戰略性的關鍵詞是十分重要的
3、其他網站提供的交換鏈接的數量
4、兼容性問題:
(1) 顯示兼容:在800*600、1024*768……解析度條件下能夠顯示正常。
(2) 操作系統兼容:在WINDOWS9.X/ME/NT/2000/XP/2003、Linux、Mac等操作系統中運行正常。
(3) 瀏覽器兼容:在IE(1—6)、Netscape(1—6)、Opera(1—7)等瀏覽器中運行正常。
5、網站服務:
(1) E-mail的自動回復(即時)、E-mail的人工回復(24小時)包括節假日
(2) 電話和傳真回復
(3) 800免費電話的提供
(4) 客戶資料的保留和挖掘
三、企業網站的綜合評價指標體系
企業網站的多指標綜合評價應當包括3方面的內容:一是綜合評價指標體系及其評價標準的建立,這是整個評價工作的前提;二是用定性或定量的方法確定各指標的具體數值,即指標評價值;三是各評價值的綜合,包括綜合演算法和權重的確定、總評價值的計算等。
4. 馬爾可夫決策過程的策略指標
策略是提供給決策者在各個時刻選取行動的規則,記作π=(π0,π1,π2,…, πn,πn+1…),其中πn是時刻 n選取行動的規則。從理論上來說,為了在大范圍尋求最優策略πn,最好根據時刻 n以前的歷史,甚至是隨機地選擇最優策略。但為了便於應用,常採用既不依賴於歷史、又不依賴於時間的策略,甚至可以採用確定性平穩策略。
衡量策略優劣的常用指標有折扣指標和平均指標。折扣指標是指長期折扣〔把 t時刻的單位收益摺合成0時刻的單位收益的βt(β < 1)倍〕期望總報酬;平均指標是指單位時間的平均期望報酬。
採用折扣指標的馬爾可夫決策過程稱為折扣模型。業已證明:若一個策略是β折扣最優的,則初始時刻的決策規則所構成的平穩策略對同一β也是折扣最優的,而且它還可以分解為若干個確定性平穩策略,它們對同一β都是最優的,已有計算這種策略的演算法。
採用平均指標的馬爾可夫決策過程稱為平均模型。業已證明:當狀態空間S 和行動集A(i)均為有限集時,對於平均指標存在最優的確定性平穩策略;當S和(或)A(i)不是有限的情況,必須增加條件,才有最優的確定性平穩策略。計算這種策略的演算法也已研製出來。
5. 西瓜書 第四章 決策樹
這一章主要介紹了決策樹是什麼,如何構建決策樹;前三節針對離散值來對決策樹的構建進行說明,而第四小節針對連續值如何處理構建決策樹進行說明。
決策樹: 基於樹狀結構,根據樣本的屬性來對樣本進行判斷、決策。如:給一個西瓜的各種屬性,色澤=「青綠」、根蒂=「縮卷」、聲音=「濁響」,通過這些屬性來判斷這一個西瓜是否為好瓜。
決策樹的 葉結點 對應 決策結果 ,而其他結點則對應一個屬性的測試, 根結點 則是包括全部樣本。
怎樣來選擇最優屬性呢?按屬性來劃分目的就是讓決策樹的每一分結點的樣本盡可能是同一類,即結點的 「純度」 越來越高。
判斷純度的高低有三種常用的指標,也是三種決策樹演算法常使用的。
我們先來看一個新定義, 信息熵 用來度量樣本集合純度的常用指標。 假定當前樣本集合D中第K類樣本所佔比例為 ,則D的信息熵為:
【注】 信息熵越小,D的純度越高
假定離散屬性 有V個可能取值 ,若用 屬性對樣本集合D進行分類則有V個分支結點,第v個分支結點包含D中所有在屬性 取值為 的樣本,記為 ; 表示 的 信息熵 ; 表示屬性 取值為 的樣本占總樣本的比重。
定義都清楚後,我們就來看看什麼是信息增益了。 信息增益: ,簡單點說就是D的信息熵減去按 屬性分類後各子集的信息熵的加權平均。
**【注】信息增益越大,說明按這個屬性分類後對純度的提高越大;信息增益是ID3決策樹學習演算法的常用指標。
增益率是C4.5決策樹演算法的常用指標,它是信息增益的改進。
定義: ,被稱為屬性a的「固有值」。
先將各個屬性的 信息增益 算出來。得到其 平均值 ,將高於平均值的那些屬性選出,再選擇其中 增益率 最高的屬性。
基尼指數:反映從數據集D中隨機抽取兩個樣本,其類別標記不一致的概率,也可以理解為1-隨機抽取兩個樣本類別一致的概率。
公式:
當我們要計算一個屬性a的基尼指數時:
【注】基尼指數最小的屬性為最優劃分屬性
剪枝處理是決策樹學習演算法應付「過擬合」的主要手段,基本策略有 「預剪枝」 和 「後剪枝」 。
預剪枝:在生成決策樹過程中,對每個結點在劃分前先估計,若劃分後可以提高決策樹的泛化能力則劃分,否則就以當前結點為葉結點。
後剪枝:先從訓練集生成完整的決策樹,再自底向上進行判斷,將當前結點替換為葉結點能否提高泛化能力,若可以則替換。
要如何判斷泛化性能是否提高,這用到前面第二章提到的性能評估,以留出法為例,預剪枝在生成結點前判斷生成前後的精度,精度大則泛化能力強,來看是否生成;後剪枝則生成決策樹後判斷替代前後的精度,看是否替換(書本的例子簡單易懂,我這里就不過多簡述)。
前面三節的決策樹生成都以離散值為例,這里講一下連續值如何生成決策樹。
額外提一下:第三章的線性回歸則需要將離散值化通過序連續化或向量化轉化為連續值。第四章決策樹則需要將連續值離散化。
二分法: 假定連續屬性 在樣本集D上有n個不同的取值,將這些值從小到大排序,記為 ,我們可以取一個劃分點t將D分為子集 ,其中 包含那些在屬性a上取值小於t的樣本,而 則是取值大於t的樣本集合。將集合D一分為二,故稱為二分法。
【注】t一般選擇兩個相鄰屬性值的中心點,
在使用二分法後,對於劃分的點,我們需要判斷這樣劃分是否最優,所以就需要用到前面提到的 信息增益 , 連續值的信息增益: .
【注】信息增益越大,則其劃分越優;且連續值屬性作為當前結點的劃分屬性後,該屬性還能作為後代結點的劃分屬性,這是與離散值屬性不同的地方。
面對樣本部分屬性缺失的情況下,丟棄這些樣本會造成信息浪費,且樣本數本來有限丟失後有可能使學習器欠擬合。
面對缺失部分屬性值的樣本集,我們需要解決兩個問題:①如何確定劃分屬性②給定劃分屬性後,那些缺失屬性值的樣本怎麼劃分。
首先,確定劃分屬性,我們從沒有屬性值缺失的樣本入手來判斷屬性a的優劣;劃分則將給樣本賦予一個權重,有確定屬性值的樣本權重為一,缺失屬性值的樣本按權重劃分。
給定訓練集D和屬性 ,令 表示D中在屬性 上沒有缺失值的樣本子集,假定 有V個取值 ,令 表示 中在屬性 上取值為 的樣本子集, 表示 中屬於第k類 的樣本子集,給每個樣本 賦予一個權重 ,並定義:
對屬性a,表示缺失值樣本所佔比例。
對屬性a,表示無缺失值樣本中第k類所佔的比例。
對屬性a,表示無缺失值樣本中在屬性a上取值 的樣本所佔比例。
信息增益: ,其中
通過上面的信息增益來判斷出將哪個屬性作為劃分屬性最優,這樣劃分屬性就確定下來了,第二個問題就是將缺失屬性值的樣本按權重分入各個分支中。 舉個例子更容易懂:如以屬性a為劃分屬性,a有三個取值1,2,3先將有確定屬性值的樣本放入分支,假設共有10個樣本其a屬性有確定屬性值,屬性值為1有5個,屬性值為2有3個,屬性值為3有2個,那麼這時候某個沒有確定屬性值的樣本則在各分支點權重為 。
將每個屬性視為坐標空間的一個坐標軸,那麼d個屬性的樣本對於d維空間的一個點。
決策樹形成的分類邊界有一個明顯特點: 軸平行,即它的分類邊界若干個與坐標軸平行的分段組成。
6. 演算法的評價指標有哪些
1.時間復雜度
演算法的時間復雜度是指執行演算法所需要的時間。一般來說,計算機演算法是問題規模n 的函數f(n),演算法的時間復雜度也因此記做。
T(n)=Ο(f(n))
因此,問題的規模n 越大,演算法執行的時間的增長率與f(n) 的增長率正相關,稱作漸進時間復雜度
2.空間復雜度
演算法的空間復雜度是指演算法需要消耗的內存空間。其計算和表示方法與時間復雜度類似,一般都用復雜度的漸近性來表示。同時間復雜度相比,空間復雜度的分析要簡單得多。
3.正確性
演算法的正確性是評價一個演算法優劣的最重要的標准。
4.可讀性
演算法的可讀性是指一個演算法可供人們閱讀的容易程度。
5.健壯性
健壯性是指一個演算法對不合理數據輸入的反應能力和處理能力,也成為容錯性。
7. 決策樹演算法-原理篇
關於決策樹演算法,我打算分兩篇來講,一篇講思想原理,另一篇直接擼碼來分析演算法。本篇為原理篇。
通過閱讀這篇文章,你可以學到:
1、決策樹的本質
2、決策樹的構造過程
3、決策樹的優化方向
決策樹根據使用目的分為:分類樹和回歸樹,其本質上是一樣的。本文只講分類樹。
決策樹,根據名字來解釋就是,使用樹型結構來模擬決策。
用圖形表示就是下面這樣。
其中橢圓形代表:特徵或屬性。長方形代表:類別結果。
面對一堆數據(含有特徵和類別),決策樹就是根據這些特徵(橢圓形)來給數據歸類(長方形)
例如,信用貸款問題,我根據《神奇動物在哪裡》的劇情給銀行造了個決策樹模型,如下圖:
然而,決定是否貸款可以根據很多特徵,然麻雞銀行選擇了:(1)是否房產價值>100w;(2)是否有其他值錢的抵押物;(3)月收入>10k;(4)是否結婚;這四個特徵,來決定是否給予貸款。
先不管是否合理,但可以肯定的是,決策樹做了特徵選擇工作,即選擇出類別區分度高的特徵。
由此可見, 決策樹其實是一種特徵選擇方法。 (特徵選擇有多種,決策樹屬於嵌入型特徵選擇,以後或許會講到,先給個圖)即選擇區分度高的特徵子集。
那麼, 從特徵選擇角度來看決策樹,決策樹就是嵌入型特徵選擇技術
同時,決策樹也是機器學習中經典分類器演算法,通過決策路徑,最終能確定實例屬於哪一類別。
那麼, 從分類器角度來看決策樹,決策樹就是樹型結構的分類模型
從人工智慧知識表示法角度來看,決策樹類似於if-then的產生式表示法。
那麼, 從知識表示角度來看決策樹,決策樹就是if-then規則的集合
由上面的例子可知,麻雞銀行通過決策樹模型來決定給哪些人貸款,這樣決定貸款的流程就是固定的,而不由人的主觀情感來決定。
那麼, 從使用者角度來看決策樹,決策樹就是規范流程的方法
最後我們再來看看決策樹的本質是什麼已經不重要了。
決策樹好像是一種思想,而通過應用在分類任務中從而成就了「決策樹演算法」。
下面內容還是繼續講解用於分類的「決策樹演算法」。
前面講了決策樹是一種 特徵選擇技術 。
既然決策樹就是一種特徵選擇的方法,那麼經典決策樹演算法其實就是使用了不同的特徵選擇方案。
如:
(1)ID3:使用信息增益作為特徵選擇
(2)C4.5:使用信息增益率作為特徵選擇
(3)CART:使用GINI系數作為特徵選擇
具體選擇的方法網上一大把,在這里我提供幾個鏈接,不細講。
但,不僅僅如此。
決策樹作為嵌入型特徵選擇技術結合了特徵選擇和分類演算法,根據特徵選擇如何生成分類模型也是決策樹的一部分。
其生成過程基本如下:
根據這三個步驟,可以確定決策樹由:(1)特徵選擇;(2)生成方法;(3)剪枝,組成。
決策樹中學習演算法與特徵選擇的關系如下圖所示:
原始特徵集合T:就是包含收集到的原始數據所有的特徵,例如:麻瓜銀行收集到與是否具有償還能力的所有特徵,如:是否結婚、是否擁有100w的房產、是否擁有汽車、是否有小孩、月收入是否>10k等等。
中間的虛線框就是特徵選擇過程,例如:ID3使用信息增益、C4.5使用信息增益率、CART使用GINI系數。
其中評價指標(如:信息增益)就是對特徵的要求,特徵需要滿足這種條件(一般是某個閾值),才能被選擇,而這一選擇過程嵌入在學習演算法中,最終被選擇的特徵子集也歸到學習演算法中去。
這就是抽象的決策樹生成過程,不論哪種演算法都是將這一抽象過程的具體化。
其具體演算法我將留在下一篇文章來講解。
而決策樹的剪枝,其實用得不是很多,因為很多情況下隨機森林能解決決策樹帶來的過擬合問題,因此在這里也不講了。
決策樹的優化主要也是圍繞決策樹生成過程的三個步驟來進行優化的。
樹型結構,可想而知,演算法效率決定於樹的深度,優化這方面主要從特徵選擇方向上優化。
提高分類性能是最重要的優化目標,其主要也是特徵選擇。
面對過擬合問題,一般使用剪枝來優化,如:李國和基於決策樹生成及剪枝的數據集優化及其應用。
同時,決策樹有很多不足,如:多值偏向、計算效率低下、對數據空缺較為敏感等,這方面的優化也有很多,大部分也是特徵選擇方向,如:陳沛玲使用粗糙集進行特徵降維。
由此,決策樹的優化方向大多都是特徵選擇方向,像ID3、C4.5、CART都是基於特徵選擇進行優化。
參考文獻
統計學習方法-李航
特徵選擇方法綜述-李郅琴
決策樹分類演算法優化研究_陳沛玲
基於決策樹生成及剪枝的數據集優化及其應用-李國和
8. 決策樹之ID3演算法及其Python實現
決策樹之ID3演算法及其Python實現
1. 決策樹背景知識
??決策樹是數據挖掘中最重要且最常用的方法之一,主要應用於數據挖掘中的分類和預測。決策樹是知識的一種呈現方式,決策樹中從頂點到每個結點的路徑都是一條分類規則。決策樹演算法最先基於資訊理論發展起來,經過幾十年發展,目前常用的演算法有:ID3、C4.5、CART演算法等。
2. 決策樹一般構建過程
??構建決策樹是一個自頂向下的過程。樹的生長過程是一個不斷把數據進行切分細分的過程,每一次切分都會產生一個數據子集對應的節點。從包含所有數據的根節點開始,根據選取分裂屬性的屬性值把訓練集劃分成不同的數據子集,生成由每個訓練數據子集對應新的非葉子節點。對生成的非葉子節點再重復以上過程,直到滿足特定的終止條件,停止對數據子集劃分,生成數據子集對應的葉子節點,即所需類別。測試集在決策樹構建完成後檢驗其性能。如果性能不達標,我們需要對決策樹演算法進行改善,直到達到預期的性能指標。
??註:分裂屬性的選取是決策樹生產過程中的關鍵,它決定了生成的決策樹的性能、結構。分裂屬性選擇的評判標準是決策樹演算法之間的根本區別。
3. ID3演算法分裂屬性的選擇——信息增益
??屬性的選擇是決策樹演算法中的核心。是對決策樹的結構、性能起到決定性的作用。ID3演算法基於信息增益的分裂屬性選擇。基於信息增益的屬性選擇是指以信息熵的下降速度作為選擇屬性的方法。它以的資訊理論為基礎,選擇具有最高信息增益的屬性作為當前節點的分裂屬性。選擇該屬性作為分裂屬性後,使得分裂後的樣本的信息量最大,不確定性最小,即熵最小。
??信息增益的定義為變化前後熵的差值,而熵的定義為信息的期望值,因此在了解熵和信息增益之前,我們需要了解信息的定義。
??信息:分類標簽xi 在樣本集 S 中出現的頻率記為 p(xi),則 xi 的信息定義為:?log2p(xi) 。
??分裂之前樣本集的熵:E(S)=?∑Ni=1p(xi)log2p(xi),其中 N 為分類標簽的個數。
??通過屬性A分裂之後樣本集的熵:EA(S)=?∑mj=1|Sj||S|E(Sj),其中 m 代表原始樣本集通過屬性A的屬性值劃分為 m 個子樣本集,|Sj| 表示第j個子樣本集中樣本數量,|S| 表示分裂之前數據集中樣本總數量。
??通過屬性A分裂之後樣本集的信息增益:InfoGain(S,A)=E(S)?EA(S)
??註:分裂屬性的選擇標准為:分裂前後信息增益越大越好,即分裂後的熵越小越好。
4. ID3演算法
??ID3演算法是一種基於信息增益屬性選擇的決策樹學習方法。核心思想是:通過計算屬性的信息增益來選擇決策樹各級節點上的分裂屬性,使得在每一個非葉子節點進行測試時,獲得關於被測試樣本最大的類別信息。基本方法是:計算所有的屬性,選擇信息增益最大的屬性分裂產生決策樹節點,基於該屬性的不同屬性值建立各分支,再對各分支的子集遞歸調用該方法建立子節點的分支,直到所有子集僅包括同一類別或沒有可分裂的屬性為止。由此得到一棵決策樹,可用來對新樣本數據進行分類。
ID3演算法流程:
(1) 創建一個初始節點。如果該節點中的樣本都在同一類別,則演算法終止,把該節點標記為葉節點,並用該類別標記。
(2) 否則,依據演算法選取信息增益最大的屬性,該屬性作為該節點的分裂屬性。
(3) 對該分裂屬性中的每一個值,延伸相應的一個分支,並依據屬性值劃分樣本。
(4) 使用同樣的過程,自頂向下的遞歸,直到滿足下面三個條件中的一個時就停止遞歸。
??A、待分裂節點的所有樣本同屬於一類。
??B、訓練樣本集中所有樣本均完成分類。
??C、所有屬性均被作為分裂屬性執行一次。若此時,葉子結點中仍有屬於不同類別的樣本時,選取葉子結點中包含樣本最多的類別,作為該葉子結點的分類。
ID3演算法優缺點分析
優點:構建決策樹的速度比較快,演算法實現簡單,生成的規則容易理解。
缺點:在屬性選擇時,傾向於選擇那些擁有多個屬性值的屬性作為分裂屬性,而這些屬性不一定是最佳分裂屬性;不能處理屬性值連續的屬性;無修剪過程,無法對決策樹進行優化,生成的決策樹可能存在過度擬合的情況。
9. 演算法的評價指標有哪些
時間復雜度和空間復雜度。
1、時間復雜度
演算法的時間復雜度是指執行演算法所需要的計算工作量。一般來說,計算機演算法是問題規模n 的函數f(n),演算法的時間復雜度也因此記做。
T(n)=Ο(f(n))
因此,問題的規模n 越大,演算法執行的時間的增長率與f(n) 的增長率正相關,稱作漸進時間復雜度(Asymptotic Time Complexity)。
2、空間復雜度
演算法的空間復雜度是指演算法需要消耗的內存空間。其計算和表示方法與時間復雜度類似,一般都用復雜度的漸近性來表示。同時間復雜度相比,空間復雜度的分析要簡單得多。
空間復雜度記做S(n)=O(f(n))。比如直接插入排序的時間復雜度是O(n^2),空間復雜度是O(1) 。而一般的遞歸演算法就要有O(n)的空間復雜度了,因為每次遞歸都要存儲返回信息。一個演算法的優劣主要從演算法的執行時間和所需要佔用的存儲空間兩個方面衡量。
(9)決策演算法指標擴展閱讀:
演算法的方法:
1、遞推法
遞推是序列計算機中的一種常用演算法。它是按照一定的規律來計算序列中的每個項,通常是通過計算機前面的一些項來得出序列中的指定項的值。其思想是把一個復雜的龐大的計算過程轉化為簡單過程的多次重復,該演算法利用了計算機速度快和不知疲倦的機器特點。
2、遞歸法
程序調用自身的編程技巧稱為遞歸(recursion)。一個過程或函數在其定義或說明中有直接或間接調用自身的一種方法,它通常把一個大型復雜的問題層層轉化為一個與原問題相似的規模較小的問題來求解,遞歸策略只需少量的程序就可描述出解題過程所需要的多次重復計算,大大地減少了程序的代碼量。遞歸的能力在於用有限的語句來定義對象的無限集合。
一般來說,遞歸需要有邊界條件、遞歸前進段和遞歸返回段。當邊界條件不滿足時,遞歸前進;當邊界條件滿足時,遞歸返回。
注意:
(1) 遞歸就是在過程或函數里調用自身.
(2) 在使用遞歸策略時,必須有一個明確的遞歸結束條件,稱為遞歸出口。
10. 如何評價一個決策樹演算法的性能指標
監督式學習:從給定的訓練數據集中學習出一個函數,當新的數據到來時,可以根據這個函數預測結果。監督學習的訓練集需要包括輸入和輸出,也可以說是特徵和目標。訓練集中的目標是由人標注的。常見的監督式學習演算法包括回歸分析和統計分類。
非監督式學習:與監督學習相比,訓練集沒有人為標注的結果。常見的非監督式學習演算法有聚類。