Python機(jī)器學(xué)習(xí)庫(kù)scikit-learn安裝與基本使用教程

2020-02-15 22:01:09

字體：大中小

供稿：網(wǎng)友

本文實(shí)例講述了Python機(jī)器學(xué)習(xí)庫(kù)scikit-learn安裝與基本使用。分享給大家供大家參考，具體如下：

引言

scikit-learn是Python的一個(gè)開源機(jī)器學(xué)習(xí)模塊，它建立在NumPy，SciPy和matplotlib模塊之上能夠?yàn)橛脩籼峁└鞣N機(jī)器學(xué)習(xí)算法接口，可以讓用戶簡(jiǎn)單、高效地進(jìn)行數(shù)據(jù)挖掘和數(shù)據(jù)分析。

scikit-learn安裝

python 中安裝許多模板庫(kù)之前都有依賴關(guān)系,安裝 scikit-learn 之前需要以下先決條件:

Python(>= 2.6 or >= 3.3)
NumPy (>= 1.6.1)
SciPy (>= 0.9)

如無(wú)意外,下面用 pip 的安裝方法可以順利完成~~

安裝 numpy

sudo pip install numpy

安裝 scipy

需要先安裝 matplotlib ipython ipython-notebook pandas sympy

sudo apt-get install python-matplotlib ipython ipython-notebooksudo apt-get install python-pandas python-sympy python-nosesudo pip install scipy

安裝 scikit-learn

sudo pip install -U scikit-learn

測(cè)試

在 terminal 里面輸入

pip list

這個(gè)會(huì)列出 pip 安裝的所有東西,如果里面有 sklearn 這一項(xiàng),應(yīng)該就是大功告成了!

或者嘗試著將幾個(gè)模板庫(kù)導(dǎo)入進(jìn)來(lái)

import numpyimport scipyimport sklearn

加載數(shù)據(jù)(Data Loading)

本文所使用的數(shù)據(jù)集為‘今日頭條'近期兩篇熱門新聞“牛！川大學(xué)霸寢室5人獲16份名校通知書”、“張超凡的最后14天：山西15歲休學(xué)少年是如何殞命網(wǎng)吧的”分別500條評(píng)論，共1000條評(píng)論。

去除停用詞后得到了詞庫(kù)大小為3992的詞庫(kù)。因此構(gòu)建了1000×3992的特征矩陣，以及長(zhǎng)度為1000的對(duì)應(yīng)評(píng)論所屬類別列表

具體爬蟲和特征矩陣構(gòu)建代碼

class_result_save.npy 下載 feature_matrix_save.npy下載

import numpy as npfeature_matrix = np.load('dataSet/feature_matrix_save.npy')class_list = np.load('dataSet/class_result_save.npy')

數(shù)據(jù)歸一化(Data Normalization)

大多數(shù)機(jī)器學(xué)習(xí)算法中的梯度方法對(duì)于數(shù)據(jù)的縮放和尺度都是很敏感的，在開始跑算法之前，我們應(yīng)該進(jìn)行歸一化或者標(biāo)準(zhǔn)化的過(guò)程，這使得特征數(shù)據(jù)縮放到0-1范圍中。scikit-learn提供了歸一化的方法：

from sklearn import preprocessing# 歸一化（Normalization）normalized_X = preprocessing.normalize(feature_matrix)print normalized_X# 標(biāo)準(zhǔn)化（Standardization）standardized_X = preprocessing.scale(feature_matrix)print standardized_X