国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

淺談Python NLP入門教程

2020-02-16 11:18:24
字體:
供稿:網(wǎng)友

正文

本文簡要介紹Python自然語言處理(NLP),使用Python的NLTK庫。NLTK是Python的自然語言處理工具包,在NLP領(lǐng)域中,最常使用的一個(gè)Python庫。

什么是NLP?

簡單來說,自然語言處理(NLP)就是開發(fā)能夠理解人類語言的應(yīng)用程序或服務(wù)。

這里討論一些自然語言處理(NLP)的實(shí)際應(yīng)用例子,如語音識(shí)別、語音翻譯、理解完整的句子、理解匹配詞的同義詞,以及生成語法正確完整句子和段落。

這并不是NLP能做的所有事情。

NLP實(shí)現(xiàn)

搜索引擎: 比如谷歌,Yahoo等。谷歌搜索引擎知道你是一個(gè)技術(shù)人員,所以它顯示與技術(shù)相關(guān)的結(jié)果;

社交網(wǎng)站推送:比如Facebook News Feed。如果News Feed算法知道你的興趣是自然語言處理,就會(huì)顯示相關(guān)的廣告和帖子。

語音引擎:比如Apple的Siri。

垃圾郵件過濾:如谷歌垃圾郵件過濾器。和普通垃圾郵件過濾不同,它通過了解郵件內(nèi)容里面的的深層意義,來判斷是不是垃圾郵件。

NLP庫

下面是一些開源的自然語言處理庫(NLP):

    Natural language toolkit (NLTK); Apache OpenNLP; Stanford NLP suite; Gate NLP library

其中自然語言工具包(NLTK)是最受歡迎的自然語言處理庫(NLP),它是用Python編寫的,而且背后有非常強(qiáng)大的社區(qū)支持。

NLTK也很容易上手,實(shí)際上,它是最簡單的自然語言處理(NLP)庫。

在這個(gè)NLP教程中,我們將使用Python NLTK庫。

安裝 NLTK

如果您使用的是Windows/Linux/Mac,您可以使用pip安裝NLTK:

pip install nltk

打開python終端導(dǎo)入NLTK檢查NLTK是否正確安裝:

import nltk

如果一切順利,這意味著您已經(jīng)成功地安裝了NLTK庫。首次安裝了NLTK,需要通過運(yùn)行以下代碼來安裝NLTK擴(kuò)展包:

import nltknltk.download()

這將彈出NLTK 下載窗口來選擇需要安裝哪些包:

您可以安裝所有的包,因?yàn)樗鼈兊拇笮《己苄。詻]有什么問題。

使用Python Tokenize文本

首先,我們將抓取一個(gè)web頁面內(nèi)容,然后分析文本了解頁面的內(nèi)容。

我們將使用urllib模塊來抓取web頁面:

import urllib.requestresponse = urllib.request.urlopen('http://php.net/')html = response.read()print (html)

從打印結(jié)果中可以看到,結(jié)果包含許多需要清理的HTML標(biāo)簽。

然后BeautifulSoup模塊來清洗這樣的文字:

from bs4 import BeautifulSoupimport urllib.requestresponse = urllib.request.urlopen('http://php.net/')html = response.read()soup = BeautifulSoup(html,"html5lib")# 這需要安裝html5lib模塊text = soup.get_text(strip=True)print (text)            
發(fā)表評論 共有條評論
用戶名: 密碼:
驗(yàn)證碼: 匿名發(fā)表
主站蜘蛛池模板: 岳池县| 富平县| 东辽县| 虹口区| 凤翔县| 隆德县| 吉隆县| 乐都县| 南涧| 石狮市| 天门市| 林西县| 稻城县| 泸西县| 达孜县| 长子县| 漠河县| 瑞昌市| 临邑县| 汨罗市| 景德镇市| 巨鹿县| 昆山市| 外汇| 揭东县| 曲阳县| 舞阳县| 客服| 华阴市| 和田市| 衡山县| 内江市| 盐源县| 永新县| 安义县| 方正县| 阿图什市| 韩城市| 双城市| 陆河县| 孟津县|