国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

Python自然語言處理之詞干,詞形與最大匹配算法代碼詳解

2020-02-16 10:44:16
字體:
供稿:網(wǎng)友

本文主要對詞干提取及詞形還原以及最大匹配算法進(jìn)行了介紹和代碼示例,Python實現(xiàn),下面我們一起看看具體內(nèi)容。

自然語言處理中一個很重要的操作就是所謂的stemming和lemmatization,二者非常類似。它們是詞形規(guī)范化的兩類重要方式,都能夠達(dá)到有效歸并詞形的目的,二者既有聯(lián)系也有區(qū)別。

1、詞干提取(stemming)

定義:Stemmingistheprocessforreducinginflected(orsometimesderived)wordstotheirstem,baseorrootform—generallyawrittenwordform.

解釋一下,Stemming是抽取詞的詞干或詞根形式(不一定能夠表達(dá)完整語義)。

NLTK中提供了三種最常用的詞干提取器接口,即Porterstemmer,LancasterStemmer和SnowballStemmer。

PorterStemmer基于Porter詞干提取算法,來看例子

>>> from nltk.stem.porter import PorterStemmer >>> porter_stemmer = PorterStemmer() >>> porter_stemmer.stem(‘maximum') u'maximum' >>> porter_stemmer.stem(‘presumably') u'presum' >>> porter_stemmer.stem(‘multiply') u'multipli' >>> porter_stemmer.stem(‘provision') u'provis' >>> porter_stemmer.stem(‘owed') u'owe' 

Lancaster Stemmer 基于Lancaster 詞干提取算法,來看例子

>>> from nltk.stem.lancaster import LancasterStemmer >>> lancaster_stemmer = LancasterStemmer() >>> lancaster_stemmer.stem(‘maximum') ‘maxim' >>> lancaster_stemmer.stem(‘presumably') ‘presum' >>> lancaster_stemmer.stem(‘presumably') ‘presum' >>> lancaster_stemmer.stem(‘multiply') ‘multiply' >>> lancaster_stemmer.stem(‘provision') u'provid' >>> lancaster_stemmer.stem(‘owed') ‘ow' 

Snowball Stemmer基于Snowball 詞干提取算法,來看例子

>>> from nltk.stem import SnowballStemmer >>> snowball_stemmer = SnowballStemmer(“english”) >>> snowball_stemmer.stem(‘maximum') u'maximum' >>> snowball_stemmer.stem(‘presumably') u'presum' >>> snowball_stemmer.stem(‘multiply') u'multipli' >>> snowball_stemmer.stem(‘provision') u'provis' >>> snowball_stemmer.stem(‘owed') u'owe' 

2、詞形還原(lemmatization)

定義:Lemmatisation(orlemmatization)inlinguistics,istheprocessofgroupingtogetherthedifferentinflectedformsofawordsotheycanbeanalysedasasingleitem.

可見,Lemmatisation是把一個任何形式的語言詞匯還原為一般形式(能表達(dá)完整語義)。相對而言,詞干提取是簡單的輕量級的詞形歸并方式,最后獲得的結(jié)果為詞干,并不一定具有實際意義。詞形還原處理相對復(fù)雜,獲得結(jié)果為詞的原形,能夠承載一定意義,與詞干提取相比,更具有研究和應(yīng)用價值。

我們會在后面給出一個同MaxMatch算法相結(jié)合的更為復(fù)雜的例子。

發(fā)表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發(fā)表
主站蜘蛛池模板: 清涧县| 新兴县| 夏津县| 临汾市| 义乌市| 平谷区| 克拉玛依市| 花莲市| 丰台区| 多伦县| 弋阳县| 越西县| 嘉黎县| 潢川县| 甘泉县| 安乡县| 河间市| 吉隆县| 安多县| 柞水县| 潍坊市| 洛浦县| 长汀县| 姚安县| 巴塘县| 吉林省| 尚志市| 固镇县| 榆社县| 民县| 米易县| 内黄县| 泗阳县| 宣武区| 阜康市| 泾阳县| 西乌| 琼结县| 绩溪县| 昌图县| 磴口县|