国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁(yè) > 編程 > Python > 正文

python決策樹(shù)之CART分類回歸樹(shù)詳解

2020-02-16 11:13:41
字體:
來(lái)源:轉(zhuǎn)載
供稿:網(wǎng)友

決策樹(shù)之CART(分類回歸樹(shù))詳解,具體內(nèi)容如下

1、CART分類回歸樹(shù)簡(jiǎn)介

  CART分類回歸樹(shù)是一種典型的二叉決策樹(shù),可以處理連續(xù)型變量和離散型變量。如果待預(yù)測(cè)分類是離散型數(shù)據(jù),則CART生成分類決策樹(shù);如果待預(yù)測(cè)分類是連續(xù)型數(shù)據(jù),則CART生成回歸決策樹(shù)。數(shù)據(jù)對(duì)象的條件屬性為離散型或連續(xù)型,并不是區(qū)別分類樹(shù)與回歸樹(shù)的標(biāo)準(zhǔn),例如表1中,數(shù)據(jù)對(duì)象xi的屬性A、B為離散型或連續(xù)型,并是不區(qū)別分類樹(shù)與回歸樹(shù)的標(biāo)準(zhǔn)。

表1
表1

2、CART分類回歸樹(shù)分裂屬性的選擇

  2.1 CART分類樹(shù)——待預(yù)測(cè)分類為離散型數(shù)據(jù)

  選擇具有最小Gain_GINI的屬性及其屬性值,作為最優(yōu)分裂屬性以及最優(yōu)分裂屬性值。Gain_GINI值越小,說(shuō)明二分之后的子樣本的“純凈度”越高,即說(shuō)明選擇該屬性(值)作為分裂屬性(值)的效果越好。
  對(duì)于樣本集SGINI計(jì)算如下:

這里寫圖片描述

其中,在樣本集S中,Pk表示分類結(jié)果中第k個(gè)類別出現(xiàn)的頻率。

  對(duì)于含有N個(gè)樣本的樣本集S,根據(jù)屬性A的第i個(gè)屬性值,將數(shù)據(jù)集S劃分成兩部分,則劃分成兩部分之后,Gain_GINI計(jì)算如下:

這里寫圖片描述

其中,n1、n2分別為樣本子集S1S2的樣本個(gè)數(shù)。

  對(duì)于屬性A,分別計(jì)算任意屬性值將數(shù)據(jù)集劃分成兩部分之后的Gain_GINI,選取其中的最小值,作為屬性A得到的最優(yōu)二分方案:

這里寫圖片描述

對(duì)于樣本集S,計(jì)算所有屬性的最優(yōu)二分方案,選取其中的最小值,作為樣本集S的最優(yōu)二分方案:

這里寫圖片描述

所得到的屬性A及其第i屬性值,即為樣本集S的最優(yōu)分裂屬性以及最優(yōu)分裂屬性值。

  2.2 CART回歸樹(shù)——待預(yù)測(cè)分類為連續(xù)型數(shù)據(jù)

  區(qū)別于分類樹(shù),回歸樹(shù)的待預(yù)測(cè)分類為連續(xù)型數(shù)據(jù)。同時(shí),區(qū)別于分類樹(shù)選取

發(fā)表評(píng)論 共有條評(píng)論
用戶名: 密碼:
驗(yàn)證碼: 匿名發(fā)表
主站蜘蛛池模板: 云林县| 大庆市| 多伦县| 武穴市| 科技| 凤翔县| 松滋市| 巨野县| 株洲市| 赤水市| 旌德县| 石柱| 碌曲县| 修武县| 甘德县| 凤阳县| 田林县| 拉孜县| 南涧| 利川市| 东阿县| 富阳市| 阿拉善左旗| 彭山县| 公主岭市| 富裕县| 荥经县| 乌拉特前旗| 白山市| 盐源县| 吉林市| 潜江市| 柞水县| 泰兴市| 凤山县| 武陟县| 陈巴尔虎旗| 兰考县| 称多县| 界首市| 永登县|