本文實(shí)例講述了Python機(jī)器學(xué)習(xí)庫(kù)scikit-learn安裝與基本使用。分享給大家供大家參考,具體如下:
scikit-learn是Python的一個(gè)開源機(jī)器學(xué)習(xí)模塊,它建立在NumPy
,SciPy
和matplotlib
模塊之上能夠?yàn)橛脩籼峁└鞣N機(jī)器學(xué)習(xí)算法接口,可以讓用戶簡(jiǎn)單、高效地進(jìn)行數(shù)據(jù)挖掘和數(shù)據(jù)分析。
python 中安裝許多模板庫(kù)之前都有依賴關(guān)系,安裝 scikit-learn 之前需要以下先決條件:
Python(>= 2.6 or >= 3.3)
NumPy (>= 1.6.1)
SciPy (>= 0.9)
如無(wú)意外,下面用 pip 的安裝方法可以順利完成~~
sudo pip install numpy
需要先安裝 matplotlib ipython ipython-notebook pandas sympy
sudo apt-get install python-matplotlib ipython ipython-notebooksudo apt-get install python-pandas python-sympy python-nosesudo pip install scipy
sudo pip install -U scikit-learn
在 terminal 里面輸入
pip list
這個(gè)會(huì)列出 pip 安裝的所有東西,如果里面有 sklearn 這一項(xiàng),應(yīng)該就是大功告成了!
或者嘗試著將幾個(gè)模板庫(kù)導(dǎo)入進(jìn)來(lái)
import numpyimport scipyimport sklearn
本文所使用的數(shù)據(jù)集為‘今日頭條'近期兩篇熱門新聞“牛!川大學(xué)霸寢室5人獲16份名校通知書”、“張超凡的最后14天:山西15歲休學(xué)少年是如何殞命網(wǎng)吧的”分別500條評(píng)論,共1000條評(píng)論。
去除停用詞后得到了詞庫(kù)大小為3992的詞庫(kù)。因此構(gòu)建了1000×3992的特征矩陣,以及長(zhǎng)度為1000的對(duì)應(yīng)評(píng)論所屬類別列表
具體爬蟲和特征矩陣構(gòu)建代碼
class_result_save.npy 下載 feature_matrix_save.npy下載
import numpy as npfeature_matrix = np.load('dataSet/feature_matrix_save.npy')class_list = np.load('dataSet/class_result_save.npy')
大多數(shù)機(jī)器學(xué)習(xí)算法中的梯度方法對(duì)于數(shù)據(jù)的縮放和尺度都是很敏感的,在開始跑算法之前,我們應(yīng)該進(jìn)行歸一化或者標(biāo)準(zhǔn)化的過(guò)程,這使得特征數(shù)據(jù)縮放到0-1范圍中。scikit-learn提供了歸一化的方法:
from sklearn import preprocessing# 歸一化(Normalization)normalized_X = preprocessing.normalize(feature_matrix)print normalized_X# 標(biāo)準(zhǔn)化(Standardization)standardized_X = preprocessing.scale(feature_matrix)print standardized_X
在解決一個(gè)實(shí)際問(wèn)題的過(guò)程中,選擇合適的特征或者構(gòu)建特征的能力特別重要。這成為特征選擇或者特征工程。
特征選擇時(shí)一個(gè)很需要?jiǎng)?chuàng)造力的過(guò)程,更多的依賴于直覺(jué)和專業(yè)知識(shí),并且有很多現(xiàn)成的算法來(lái)進(jìn)行特征的選擇。
新聞熱點(diǎn)
疑難解答
圖片精選