當前位置:首頁 » 操作系統 » 決策樹演算法c45

決策樹演算法c45

發布時間: 2022-05-30 14:02:37

① 目前比較流行的決策樹演算法有哪些

ID3演算法,最簡單的決策樹
c4.5 是最經典的決策樹演算法,選擇信息差異率最大的作為分割屬性。
CART演算法,適合用於回歸

② 有人懂決策樹演算法c4.5沒,幫我看哈這個代碼

train_features %訓練數據集,可以使用自己的數據或者使用UCI數據集,有需要的話問我或者網路下載

train_targets %類別屬性, 一般是就訓練數據集的最後一列
inc_node %Percentage of incorrectly assigned samples at a node,默認是0.25
region %決策域向量,一般為[-x,x,-y,y,number of points]

③ c4.5 決策樹演算法使用問題

用make!!!

④ c4.5決策樹演算法怎麼得到分類結果

決策樹主要有ID3,C4.5,CART等形式。ID3選取信息增益的屬性遞歸進行分類,C4.5改進為使用信息增益率來選取分類屬性。CART是Classfication and Regression Tree的縮寫。表明CART不僅可以進行分類,也可以進行回歸。

⑤ 決策樹演算法的典型演算法

決策樹的典型演算法有ID3,C4.5,CART等。
國際權威的學術組織,數據挖掘國際會議ICDM (the IEEE International Conference on Data Mining)在2006年12月評選出了數據挖掘領域的十大經典演算法中,C4.5演算法排名第一。C4.5演算法是機器學習演算法中的一種分類決策樹演算法,其核心演算法是ID3演算法。C4.5演算法產生的分類規則易於理解,准確率較高。不過在構造樹的過程中,需要對數據集進行多次的順序掃描和排序,在實際應用中因而會導致演算法的低效。
決策樹演算法的優點如下:
(1)分類精度高;
(2)生成的模式簡單;
(3)對雜訊數據有很好的健壯性。
因而是目前應用最為廣泛的歸納推理演算法之一,在數據挖掘中受到研究者的廣泛關注。

⑥ 決策樹ID3,C4.5,CART演算法中某一屬性分類後,是否能運用該屬性繼續分類

決策樹主要有ID3,C4.5,CART等形式。ID3選取信息增益的屬性遞歸進行分類,C4.5改進為使用信息增益率來選取分類屬性。CART是Classfication and Regression Tree的縮寫。表明CART不僅可以進行分類,也可以進行回歸。其中使用基尼系數選取分類屬性。以下主要介紹ID3和CART演算法。
ID3演算法:
信息熵: H(X)=-sigma(對每一個x)(plogp) H(Y|X)=sigma(對每一個x)(pH(Y|X=xi))
信息增益:H(D)-H(D|X) H(D)是整個數據集的熵
信息增益率:(H(D)-H(D|X))/H(X)
演算法流程:(1)對每一個屬性計算信息增益,若信息增益小於閾值,則將該支置為葉節點,選擇其中個數最多的類標簽作為該類的類標簽。否則,選擇其中最大的作為分類屬 性。
(2)若各個分支中都只含有同一類數據,則將這支置為葉子節點。
否則 繼續進行(1)。
CART演算法:
基尼系數:Gini(p)=sigma(每一個類)p(1-p)
回歸樹:屬性值為連續實數。將整個輸入空間劃分為m塊,每一塊以其平均值作為輸出。f(x)=sigma(每一塊)Cm*I(x屬於Rm)
回歸樹生成:(1)選取切分變數和切分點,將輸入空間分為兩份。
(2)每一份分別進行第一步,直到滿足停止條件。
切分變數和切分點選取:對於每一個變數進行遍歷,從中選擇切分點。選擇一個切分點滿足分類均方誤差最小。然後在選出所有變數中最小分類誤差最小的變數作為切分 變數。
分類樹:屬性值為離散值。
分類樹生成:(1)根據每一個屬性的每一個取值,是否取該值將樣本分成兩類,計算基尼系數。選擇基尼系數最小的特徵和屬性值,將樣本分成兩份。
(2)遞歸調用(1)直到無法分割。完成CART樹生成。

決策樹剪枝策略:
預剪枝(樹提前停止生長)和後剪枝(完全生成以後減去一些子樹提高預測准確率)
降低錯誤率剪枝:自下而上對每一個內部節點比較減去以其為葉節點和子樹的准確率。如果減去准確率提高,則減去,依次類推知道准確率不在提高。
代價復雜度剪枝:從原始決策樹T0開始生成一個子樹序列{T0、T1、T2、...、Tn},其中Ti+1是從Ti總產生,Tn為根節點。每次均從Ti中 減去具有最小誤差增長率的子樹。然後通過 交叉驗證比較序列中各子樹的效果選擇最優決策樹。

⑦ 決策樹C4.5演算法中|C|=freq(C,T),具體公式是什麼,也就是|C|=什麼

是的,weka是開源的. 記得我用過的那個版本在安裝目錄的bin文件夾里有一個weka.jar, 解壓後得到的就是源碼. c4.5在weka里的實現是j48, 大致是這個路徑吧:weka.classifiers.trees.j48

您可以把整個weka.jar作為外部library導入類似Eclipse這樣的開發環境, 這樣看源碼或者用weka的api進行二次開發都很方便的.

⑧ 請比較k近鄰,決策樹和樸素貝葉斯這三種分類演算法之間的異同點

決策樹演算法主要包括id3,c45,cart等演算法,生成樹形決策樹,而樸素貝葉斯是利用貝葉斯定律,根據先驗概率求算後驗概率。

如果訓練集很小,那麼高偏差/低方差分類器(如樸素貝葉斯分類器)要優於低偏差/高方差分類器(如k近鄰分類器),因為後者容易過擬合。然而,隨著訓練集的增大,低偏差/高方差分類器將開始勝出(它們具有較低的漸近誤差),因為高偏差分類器不足以提供准確的模型。

一些特定演算法的優點:

樸素貝葉斯的優點:

超級簡單,你只是在做一串計算。如果樸素貝葉斯(NB)條件獨立性假設成立,相比於邏輯回歸這類的判別模型,樸素貝葉斯分類器將收斂得更快,所以只需要較小的訓練集。而且,即使NB假設不成立,樸素貝葉斯分類器在實踐方面仍然表現很好。

如果想得到簡單快捷的執行效果,這將是個好的選擇。它的主要缺點是,不能學習特徵之間的相互作用(比如,它不能學習出:雖然你喜歡布拉德·皮特和湯姆·克魯斯的電影,但卻不喜歡他們一起合作的電影)。

邏輯回歸的優點:

有許多正則化模型的方法,不需要像在樸素貝葉斯分類器中那樣擔心特徵間的相互關聯性。與決策樹和支撐向量機不同,還可以有一個很好的概率解釋,並能容易地更新模型來吸收新數據(使用一個在線梯度下降方法)。

如果想要一個概率框架(比如,簡單地調整分類閾值,說出什麼時候是不太確定的,或者獲得置信區間),或你期望未來接收更多想要快速並入模型中的訓練數據,就選擇邏輯回歸。

決策樹的優點:

易於說明和解釋(對某些人來說—我不確定自己是否屬於這個陣營)。它們可以很容易地處理特徵間的相互作用,並且是非參數化的,所以你不用擔心異常值或者數據是否線性可分(比如,決策樹可以很容易地某特徵x的低端是類A,中間是類B,然後高端又是類A的情況)。

一個缺點是,不支持在線學習,所以當有新樣本時,你將不得不重建決策樹。另一個缺點是,容易過擬合,但這也正是諸如隨機森林(或提高樹)之類的集成方法的切入點。另外,隨機森林往往是很多分類問題的贏家(我相信通常略優於支持向量機),它們快速並且可擴展,同時你不須擔心要像支持向量機那樣調一堆參數,所以它們最近似乎相當受歡迎。

(8)決策樹演算法c45擴展閱讀:

樸素貝葉斯演算法:

設每個數據樣本用一個n維特徵向量來描述n個屬性的值,即:X={x1,x2,…,xn},假定有m個類,分別用C1, C2,…,Cm表示。給定一個未知的數據樣本X(即沒有類標號),若樸素貝葉斯分類法將未知的樣本X分配給類Ci,則一定是

P(Ci|X)>P(Cj|X) 1≤j≤m,j≠i

根據貝葉斯定理:

由於P(X)對於所有類為常數,最大化後驗概率P(Ci|X)可轉化為最大化先驗概率P(X|Ci)P(Ci)。如果訓練數據集有許多屬性和元組,計算P(X|Ci)的開銷可能非常大,為此,通常假設各屬性的取值互相獨立,這樣

先驗概率P(x1|Ci),P(x2|Ci),…,P(xn|Ci)可以從訓練數據集求得。

根據此方法,對一個未知類別的樣本X,可以先分別計算出X屬於每一個類別Ci的概率P(X|Ci)P(Ci),然後選擇其中概率最大的類別作為其類別。

樸素貝葉斯演算法成立的前提是各屬性之間互相獨立。當數據集滿足這種獨立性假設時,分類的准確度較高,否則可能較低。另外,該演算法沒有分類規則輸出。

TAN演算法(樹增強型樸素貝葉斯演算法)

TAN演算法通過發現屬性對之間的依賴關系來降低NB中任意屬性之間獨立的假設。它是在NB網路結構的基礎上增加屬性對之間的關聯(邊)來實現的。

實現方法是:用結點表示屬性,用有向邊表示屬性之間的依賴關系,把類別屬性作為根結點,其餘所有屬性都作為它的子節點。通常,用虛線代表NB所需的邊,用實線代表新增的邊。屬性Ai與Aj之間的邊意味著屬性Ai對類別變數C的影響還取決於屬性Aj的取值。

這些增加的邊需滿足下列條件:類別變數沒有雙親結點,每個屬性有一個類別變數雙親結點和最多另外一個屬性作為其雙親結點。

⑨ 決策樹演算法 CART和C4.5決策樹有什麼區別各用於什麼領域

1、C4.5演算法是在ID3演算法的基礎上採用信息增益率的方法選擇測試屬性。CART演算法採用一種二分遞歸分割的技術,與基於信息熵的演算法不同,CART演算法對每次樣本集的劃分計算GINI系數,GINI系數,GINI系數越小則劃分越合理。
2、決策樹演算法是一種逼近離散函數值的方法。它是一種典型的分類方法,首先對數據進行處理,利用歸納演算法生成可讀的規則和決策樹,然後使用決策對新數據進行分析。本質上決策樹是通過一系列規則對數據進行分類的過程。
3、決策樹演算法構造決策樹來發現數據中蘊涵的分類規則.如何構造精度高、規模小的決策樹是決策樹演算法的核心內容。決策樹構造可以分兩步進行。第一步,決策樹的生成:由訓練樣本集生成決策樹的過程。一般情況下,訓練樣本數據集是根據實際需要有歷史的、有一定綜合程度的,用於數據分析處理的數據集。第二步,決策樹的剪技:決策樹的剪枝是對上一階段生成的決策樹進行檢驗、校正和修下的過程,主要是用新的樣本數據集(稱為測試數據集)中的數據校驗決策樹生成過程中產生的初步規則,將那些影響預衡准確性的分枝剪除。

⑩ 決策樹演算法和樸素貝葉斯演算法的區別

不屬於!決策樹演算法主要包括id3,c45,cart等演算法,生成樹形決策樹,而樸素貝葉斯是利用貝葉斯定律,根據先驗概率求算後驗概率。

熱點內容
修羅雲伺服器 發布:2024-05-06 18:05:18 瀏覽:708
什麼電腦可以安裝安卓系統 發布:2024-05-06 18:05:15 瀏覽:776
金標頂配都有哪些配置 發布:2024-05-06 17:58:22 瀏覽:599
怎麼看配置高低是否換電腦 發布:2024-05-06 17:32:01 瀏覽:968
linux命令查看目錄 發布:2024-05-06 17:24:18 瀏覽:531
sqlvb 發布:2024-05-06 17:24:16 瀏覽:227
分鏡頭腳本軟體 發布:2024-05-06 17:22:54 瀏覽:824
華為手機百度的緩存如何清理 發布:2024-05-06 17:22:53 瀏覽:941
網投源碼 發布:2024-05-06 17:10:35 瀏覽:871
看門狗腳本 發布:2024-05-06 17:10:28 瀏覽:108