国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

用Python從零實現(xiàn)貝葉斯分類器的機器學習的教程

2020-02-23 00:27:01
字體:
來源:轉載
供稿:網友

樸素貝葉斯算法簡單高效,在處理分類問題上,是應該首先考慮的方法之一。

通過本教程,你將學到樸素貝葉斯算法的原理和Python版本的逐步實現(xiàn)。

更新:查看后續(xù)的關于樸素貝葉斯使用技巧的文章“Better Naive Bayes: 12 Tips To Get The Most From The Naive Bayes Algorithm”
2015331103455462.jpg (640×410)樸素貝葉斯分類器,Matt Buck保留部分版權
關于樸素貝葉斯

樸素貝葉斯算法是一個直觀的方法,使用每個屬性歸屬于某個類的概率來做預測。你可以使用這種監(jiān)督性學習方法,對一個預測性建模問題進行概率建模。

給定一個類,樸素貝葉斯假設每個屬性歸屬于此類的概率獨立于其余所有屬性,從而簡化了概率的計算。這種強假定產生了一個快速、有效的方法。

給定一個屬性值,其屬于某個類的概率叫做條件概率。對于一個給定的類值,將每個屬性的條件概率相乘,便得到一個數(shù)據(jù)樣本屬于某個類的概率。

我們可以通過計算樣本歸屬于每個類的概率,然后選擇具有最高概率的類來做預測。

通常,我們使用分類數(shù)據(jù)來描述樸素貝葉斯,因為這樣容易通過比率來描述、計算。一個符合我們目的、比較有用的算法需要支持數(shù)值屬性,同時假設每一個數(shù)值屬性服從正態(tài)分布(分布在一個鐘形曲線上),這又是一個強假設,但是依然能夠給出一個健壯的結果。
預測糖尿病的發(fā)生

本文使用的測試問題是“皮馬印第安人糖尿病問題”。

這個問題包括768個對于皮馬印第安患者的醫(yī)療觀測細節(jié),記錄所描述的瞬時測量取自諸如患者的年紀,懷孕和血液檢查的次數(shù)。所有患者都是21歲以上(含21歲)的女性,所有屬性都是數(shù)值型,而且屬性的單位各不相同。

每一個記錄歸屬于一個類,這個類指明以測量時間為止,患者是否是在5年之內感染的糖尿病。如果是,則為1,否則為0。

機器學習文獻中已經多次研究了這個標準數(shù)據(jù)集,好的預測精度為70%-76%。

下面是pima-indians.data.csv文件中的一個樣本,了解一下我們將要使用的數(shù)據(jù)。

注意:下載文件,然后以.csv擴展名保存(如:pima-indians-diabetes.data.csv)。查看文件中所有屬性的描述。

 6,148,72,35,0,33.6,0.627,50,11,85,66,29,0,26.6,0.351,31,08,183,64,0,0,23.3,0.672,32,11,89,66,23,94,28.1,0.167,21,00,137,40,35,168,43.1,2.288,33,1

樸素貝葉斯算法教程

教程分為如下幾步:

1.處理數(shù)據(jù):從CSV文件中載入數(shù)據(jù),然后劃分為訓練集和測試集。

2.提取數(shù)據(jù)特征:提取訓練數(shù)據(jù)集的屬性特征,以便我們計算概率并做出預測。

3.單一預測:使用數(shù)據(jù)集的特征生成單個預測。

發(fā)表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發(fā)表
主站蜘蛛池模板: 孟津县| 沽源县| 富锦市| 南安市| 那曲县| 德兴市| 兴业县| 岱山县| 吉隆县| 乌审旗| 奎屯市| 沙坪坝区| 长寿区| 黄大仙区| 乾安县| 长沙县| 封开县| 石泉县| 苏州市| 河北区| 平遥县| 德昌县| 建瓯市| 新龙县| 十堰市| 克拉玛依市| 皋兰县| 阳原县| 公安县| 福安市| 永州市| 石屏县| 全椒县| 宿迁市| 桦川县| 肥乡县| 绥江县| 祥云县| 海城市| 会昌县| 布拖县|