国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁(yè) > 編程 > Python > 正文

Python實(shí)現(xiàn)快速計(jì)算詞頻功能示例

2020-02-15 22:01:03
字體:
來(lái)源:轉(zhuǎn)載
供稿:網(wǎng)友

本文實(shí)例講述了Python實(shí)現(xiàn)快速計(jì)算詞頻功能。分享給大家供大家參考,具體如下:

這幾天看到一位同事的代碼,方法如下:

def cut_word(body):  temp_dict={}  if body is not None:    temp=jieba.cut(body)    for t in temp:      temp_dict[t]=1  else:    pass  return temp_dict

這個(gè)函數(shù)的功能是,輸入一段字符串,比如:'今天天氣很不錯(cuò)',輸出一個(gè)字典,key為使用結(jié)巴的cut方法之后切分的詞,value為1,如:{'很':1,'今天天氣':1,'不錯(cuò)': 1}。

然后我看到同事的另一個(gè)方法:

def union_dict(x,y):  _keys = set(sum([obj.keys() for obj in [x,y]],[]))  _total = {}  for _key in _keys:    _total[_key] = sum([obj.get(_key,0) for obj in [x,y]])  return _total

是這樣調(diào)用的:

final_dict=reduce(union_dict,result)

result是這樣產(chǎn)生的:

result=df['body'].apply(cut_word)

也就是把df的body列每一行進(jìn)行cut_word函數(shù)操作(即將字符串轉(zhuǎn)換成一個(gè)字典)。

result的類型是series,隨后對(duì)result用reduce函數(shù)進(jìn)行union_dict操作。

union_dict的作用是,輸入兩個(gè)字典,比如{'很':1,'今天天氣':1,'不錯(cuò)': 1}和{'很':1,'今天天氣':1,'差': 1},對(duì)key相同的進(jìn)行value求和,也就是輸出會(huì)變成{'很':2,'今天天氣':2,'不錯(cuò)': 1,'差':1}。

所以這一系列的操作其實(shí)是為了計(jì)算一大堆文字的詞頻數(shù),但同事使用的是對(duì)每一行分別進(jìn)行拆分,生成字典,隨后

對(duì)字典進(jìn)行合并,其實(shí)有些麻煩。

再學(xué)習(xí)自然語(yǔ)言處理的時(shí)候,我了解到nltk有一個(gè)方法,可以直接計(jì)算詞頻,用在此處正好。

# -*- coding:utf-8 -*-import nltkimport jiebastr = '今天天氣很不錯(cuò)。今天天氣很差'a = list(jieba.cut(str))cfd = nltk.FreqDist(a)

結(jié)果直接是一個(gè)帶有頻數(shù)的字典:{'很':2,'今天天氣':2,'不錯(cuò)': 1,'很差':1,'。'}

由于同事的函數(shù)cut_word對(duì)每個(gè)詞只計(jì)一次頻數(shù),所以不能直接拼接字符串后調(diào)用FreqDist函數(shù),需要對(duì)每個(gè)cut出來(lái)的列表去重,隨后再拼接為大字符串調(diào)用FreqDist,這也比之前寫(xiě)這兩個(gè)函數(shù)簡(jiǎn)單許多。

對(duì)于普通的計(jì)算頻數(shù)的需求來(lái)說(shuō),這個(gè)函數(shù)能直接解決,十分方便。

更多關(guān)于Python相關(guān)內(nèi)容感興趣的讀者可查看本站專題:《Python數(shù)學(xué)運(yùn)算技巧總結(jié)》、《Python數(shù)據(jù)結(jié)構(gòu)與算法教程》、《Python函數(shù)使用技巧總結(jié)》、《Python字符串操作技巧匯總》、《Python入門(mén)與進(jìn)階經(jīng)典教程》及《Python文件與目錄操作技巧匯總》

希望本文所述對(duì)大家Python程序設(shè)計(jì)有所幫助。

發(fā)表評(píng)論 共有條評(píng)論
用戶名: 密碼:
驗(yàn)證碼: 匿名發(fā)表
主站蜘蛛池模板: 和田市| 石台县| 安顺市| 昌宁县| 台东县| 弥渡县| 荔波县| 邵武市| 易门县| 汉中市| 遂平县| 牙克石市| 乐平市| 北流市| 乐至县| 清涧县| 武清区| 曲松县| 东至县| 凤城市| 萨嘎县| 丹寨县| 莒南县| 镇沅| 阿合奇县| 远安县| 阜康市| 衢州市| 高雄市| 饶阳县| 措勤县| 陇南市| 郸城县| 大埔区| 富裕县| 高台县| 木里| 平南县| 乌鲁木齐县| 汕尾市| 辛集市|