国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁(yè) > 編程 > Python > 正文

Python文本特征抽取與向量化算法學(xué)習(xí)

2020-02-16 11:15:42
字體:
來(lái)源:轉(zhuǎn)載
供稿:網(wǎng)友

本文為大家分享了Python文本特征抽取與向量化的具體代碼,供大家參考,具體內(nèi)容如下

假設(shè)我們剛看完諾蘭的大片《星際穿越》,設(shè)想如何讓機(jī)器來(lái)自動(dòng)分析各位觀眾對(duì)電影的評(píng)價(jià)到底是“贊”(positive)還是“踩”(negative)呢?

這類問(wèn)題就屬于情感分析問(wèn)題。這類問(wèn)題處理的第一步,就是將文本轉(zhuǎn)換為特征。

因此,這章我們只學(xué)習(xí)第一步,如何從文本中抽取特征,并將其向量化。

由于中文的處理涉及到分詞問(wèn)題,本文用一個(gè)簡(jiǎn)單的例子來(lái)說(shuō)明如何使用Python的機(jī)器學(xué)習(xí)庫(kù),對(duì)英文進(jìn)行特征提取。

1、數(shù)據(jù)準(zhǔn)備

Python的sklearn.datasets支持從目錄讀取所有分類好的文本。不過(guò)目錄必須按照一個(gè)文件夾一個(gè)標(biāo)簽名的規(guī)則放好。比如本文使用的數(shù)據(jù)集共有2個(gè)標(biāo)簽,一個(gè)為“net”,一個(gè)為“pos”,每個(gè)目錄下面有6個(gè)文本文件。目錄如下所示:

neg
    1.txt
    2.txt
    ......
pos
    1.txt
    2.txt
    ....

12個(gè)文件的內(nèi)容匯總起來(lái)如下所示:

neg:   shit.   waste my money.   waste of money.   sb movie.   waste of time.   a shit movie. pos:   nb! nb movie!   nb!   worth my money.   I love this movie!   a nb movie.   worth it! 

2、文本特征

如何從這些英文中抽取情感態(tài)度而進(jìn)行分類呢?

最直觀的做法就是抽取單詞。通常認(rèn)為,很多關(guān)鍵詞能夠反映說(shuō)話者的態(tài)度。比如上面這個(gè)簡(jiǎn)單的數(shù)據(jù)集,很容易發(fā)現(xiàn),凡是說(shuō)了“shit”的,就一定屬于neg類。

當(dāng)然,上面數(shù)據(jù)集是為了方便描述而簡(jiǎn)單設(shè)計(jì)的。現(xiàn)實(shí)中一個(gè)詞經(jīng)常會(huì)有穆棱兩可的態(tài)度。但是仍然有理由相信,某個(gè)單詞在neg類中出現(xiàn)的越多,那么他表示neg態(tài)度的概率越大。
同樣我們注意到有些單詞對(duì)情感分類是毫無(wú)意義的。比如上述數(shù)據(jù)中的“of”,“I”之類的單詞。這類詞有個(gè)名字,叫“Stop_Word”(停用詞)。這類詞是可以完全忽略掉不做統(tǒng)計(jì)的。顯然忽略掉這些詞,詞頻記錄的存儲(chǔ)空間能夠得到優(yōu)化,而且構(gòu)建速度也更快。
把每個(gè)單詞的詞頻作為重要的特征也存在一個(gè)問(wèn)題。比如上述數(shù)據(jù)中的”movie“,在12個(gè)樣本中出現(xiàn)了5次,但是出現(xiàn)正反兩邊次數(shù)差不多,沒(méi)有什么區(qū)分度。而”worth“出現(xiàn)了2次,但卻只出現(xiàn)在pos類中,顯然更具有強(qiáng)烈的剛晴色彩,即區(qū)分度很高。

因此,我們需要引入TF-IDF(Term Frequency-Inverse Document Frequency,詞頻和逆向文件頻率)對(duì)每個(gè)單詞做進(jìn)一步考量。

TF(詞頻)的計(jì)算很簡(jiǎn)單,就是針對(duì)一個(gè)文件t,某個(gè)單詞Nt 出現(xiàn)在該文檔中的頻率。比如文檔“I love this movie”,單詞“l(fā)ove”的TF為1/4。如果去掉停用詞“I"和”it“,則為1/2。

發(fā)表評(píng)論 共有條評(píng)論
用戶名: 密碼:
驗(yàn)證碼: 匿名發(fā)表
主站蜘蛛池模板: 莫力| 清徐县| 育儿| 田阳县| 乌兰县| 集贤县| 盐源县| 望城县| 西乡县| 疏勒县| 奎屯市| SHOW| 宜丰县| 孟津县| 麻江县| 巧家县| 灯塔市| 新昌县| 玛纳斯县| 且末县| 乐业县| 土默特右旗| 铁力市| 芒康县| 太仓市| 鄂托克旗| 五莲县| 棋牌| 樟树市| 亳州市| 宣汉县| 文安县| 多伦县| 武山县| 丘北县| 额尔古纳市| 怀安县| 孙吴县| 沈丘县| 纳雍县| 黎城县|