国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁(yè) > 編程 > Python > 正文

Python機(jī)器學(xué)習(xí)庫(kù)scikit-learn安裝與基本使用教程

2020-02-15 22:01:09
字體:
來(lái)源:轉(zhuǎn)載
供稿:網(wǎng)友

本文實(shí)例講述了Python機(jī)器學(xué)習(xí)庫(kù)scikit-learn安裝與基本使用。分享給大家供大家參考,具體如下:

引言

scikit-learn是Python的一個(gè)開源機(jī)器學(xué)習(xí)模塊,它建立在NumPySciPymatplotlib模塊之上能夠?yàn)橛脩籼峁└鞣N機(jī)器學(xué)習(xí)算法接口,可以讓用戶簡(jiǎn)單、高效地進(jìn)行數(shù)據(jù)挖掘和數(shù)據(jù)分析。

scikit-learn安裝

python 中安裝許多模板庫(kù)之前都有依賴關(guān)系,安裝 scikit-learn 之前需要以下先決條件:

Python(>= 2.6 or >= 3.3)
NumPy (>= 1.6.1)
SciPy (>= 0.9)

如無(wú)意外,下面用 pip 的安裝方法可以順利完成~~

安裝 numpy

sudo pip install numpy

安裝 scipy

需要先安裝 matplotlib ipython ipython-notebook pandas sympy

sudo apt-get install python-matplotlib ipython ipython-notebooksudo apt-get install python-pandas python-sympy python-nosesudo pip install scipy

安裝 scikit-learn

sudo pip install -U scikit-learn

測(cè)試

在 terminal 里面輸入

pip list

這個(gè)會(huì)列出 pip 安裝的所有東西,如果里面有 sklearn 這一項(xiàng),應(yīng)該就是大功告成了!

或者嘗試著將幾個(gè)模板庫(kù)導(dǎo)入進(jìn)來(lái)

import numpyimport scipyimport sklearn

加載數(shù)據(jù)(Data Loading)

本文所使用的數(shù)據(jù)集為‘今日頭條'近期兩篇熱門新聞“牛!川大學(xué)霸寢室5人獲16份名校通知書”、“張超凡的最后14天:山西15歲休學(xué)少年是如何殞命網(wǎng)吧的”分別500條評(píng)論,共1000條評(píng)論。

去除停用詞后得到了詞庫(kù)大小為3992的詞庫(kù)。因此構(gòu)建了1000×3992的特征矩陣,以及長(zhǎng)度為1000的對(duì)應(yīng)評(píng)論所屬類別列表

具體爬蟲和特征矩陣構(gòu)建代碼

class_result_save.npy 下載 feature_matrix_save.npy下載

import numpy as npfeature_matrix = np.load('dataSet/feature_matrix_save.npy')class_list = np.load('dataSet/class_result_save.npy')

數(shù)據(jù)歸一化(Data Normalization)

大多數(shù)機(jī)器學(xué)習(xí)算法中的梯度方法對(duì)于數(shù)據(jù)的縮放和尺度都是很敏感的,在開始跑算法之前,我們應(yīng)該進(jìn)行歸一化或者標(biāo)準(zhǔn)化的過(guò)程,這使得特征數(shù)據(jù)縮放到0-1范圍中。scikit-learn提供了歸一化的方法:

from sklearn import preprocessing# 歸一化(Normalization)normalized_X = preprocessing.normalize(feature_matrix)print normalized_X# 標(biāo)準(zhǔn)化(Standardization)standardized_X = preprocessing.scale(feature_matrix)print standardized_X

特征選擇(Feature Selection)

在解決一個(gè)實(shí)際問(wèn)題的過(guò)程中,選擇合適的特征或者構(gòu)建特征的能力特別重要。這成為特征選擇或者特征工程。

特征選擇時(shí)一個(gè)很需要?jiǎng)?chuàng)造力的過(guò)程,更多的依賴于直覺(jué)和專業(yè)知識(shí),并且有很多現(xiàn)成的算法來(lái)進(jìn)行特征的選擇。

發(fā)表評(píng)論 共有條評(píng)論
用戶名: 密碼:
驗(yàn)證碼: 匿名發(fā)表
主站蜘蛛池模板: 托克逊县| 富源县| 荥经县| 岑溪市| 黎川县| 南和县| 宣化县| 加查县| 娱乐| 永寿县| 永德县| 汝州市| 定襄县| 大石桥市| 伊春市| 仙游县| 宝清县| 林西县| 宣化县| 咸宁市| 绩溪县| 大埔区| 伊春市| 化州市| 平陆县| 揭阳市| 色达县| 霍林郭勒市| 苏尼特左旗| 石城县| 佛山市| 双桥区| 荆州市| 淮北市| 中宁县| 雷山县| 岚皋县| 德安县| 密云县| 抚顺县| 奈曼旗|