国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

Python決策樹之基于信息增益的特征選擇示例

2020-02-15 22:00:57
字體:
來源:轉載
供稿:網友

本文實例講述了Python決策樹之基于信息增益的特征選擇。分享給大家供大家參考,具體如下:

基于信息增益的特征選取是一種廣泛使用在決策樹(decision tree)分類算法中用到的特征選取。該特征選擇的方法是通過計算每個特征值劃分數據集獲得信息增益,通過比較信息增益的大小選取合適的特征值。

一、定義

1.1 熵

信息的期望值,可理解為數據集的無序度,熵的值越大,表示數據越無序,公式如下:

其中H表示該數據集的熵值, pi表示類別i的概率, 若所有數據集只有一個類別,那么pi=1H=0。因此H=0為熵的最小值,表示該數據集完全有序。

1.2 信息增益

熵的減少或者是數據無序度的減少。

二、流程

1、計算原始數據的信息熵H1

2、選取一個特征,根據特征值對數據進行分類,再對每個類別分別計算信息熵,按比例求和,得出這種劃分方式的信息熵H2

3、計算信息增益:

infoGain = H1 - H2

4、根據2,3計算所有特征屬性對應的信息增益,保留信息增益較大的特征屬性。

三、實例

海洋生物數據

被分類項/特征 不浮出水面是否可以生存 是否有腳蹼 屬于魚類
1
2
3
4
5

3.1 原始數據信息熵

p(是魚類) = p1 =0.4
p(非魚類) = p2 =0.6

通過信息熵公式可得原始數據信息熵 H1 = 0.97095

3.2 根據特征分類計算信息熵

選擇'不服出水面是否可以生存'作為分析的特征屬性

可將數據集分為[1,2,3]與[4,5],分別占0.6和0.4。

[1,2,3]可計算該類數據信息熵為 h1=0.918295834054

[4,5] 可計算該類數據信息熵為 h2=0

計算劃分后的信息熵 H2 = 0.6 * h1 + 0.4 * h2 = 0.550977500433

3.3 計算信息增益

infoGain_0 = H1-H2 = 0.419973094022

3.4 特征選擇

同理可得對特征'是否有腳蹼'該特征計算信息增益 infoGain_1 = 0.170950594455

比較可得,'不服出水面是否可以生存'所得的信息增益更大,因此在該實例中,該特征是最好用于劃分數據集的特征

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 余江县| 自治县| 和林格尔县| 西平县| 马公市| 成安县| 涡阳县| 宁夏| 比如县| 吉木萨尔县| 边坝县| 安庆市| 区。| 富锦市| 惠水县| 吴桥县| 长子县| 杨浦区| 临澧县| 仙桃市| 孟津县| 建湖县| 巴马| 祁阳县| 昌平区| 和政县| 镇原县| 安徽省| 辰溪县| 平塘县| 新竹市| 桦川县| 庆城县| 万山特区| 福贡县| 栾川县| 墨玉县| 德清县| 八宿县| 韩城市| 麻栗坡县|