国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

編寫簡單的Python程序來判斷文本的語種

2020-02-23 00:35:08
字體:
供稿:網(wǎng)友

1.問題的描述

用Python進行文本處理時,有時候處理的文本中包含中文、英文、日文等多個語系的文本,有時候不能同時進行處理,這個時候就需要判別當前文本是屬于哪個語系的。Python中有個langid工具包提供了此功能,langid目前支持97種語言的檢測,非常好用。


2.程序的代碼

以下Python是調(diào)用langid工具包來對文本進行語言檢測與判別的程序代碼:
 

import langid                             #引入langid模塊   def translate(inputFile, outputFile):   fin = open(inputFile, 'r')                  #以讀的方式打開輸入文件   fout = open(outputFile, 'w')                 #以寫的方式打開輸出文件     for eachLine in fin:                     #依次讀入每一行     line = eachLine.strip().decode('utf-8', 'ignore')   #去除每行的首位空格等,并統(tǒng)一轉(zhuǎn)化成Unicode     lineTuple = langid.classify(line)           #調(diào)用langid來對該行進行語言檢測     if lineTuple[0] == "zh":               #如果該行語言大部分為中文,則不進行任何處理       continue       outstr = line                     #如果該行語言為非中文,則準備輸出     fout.write(outstr.strip().encode('utf-8') + '/n')   #輸出非中文的行,從Unicode轉(zhuǎn)化成utf-8輸出     fin.close()   fout.close()   if __name__ == '__main__':                      #相當于main函數(shù)   translate("myInputFile.txt", "myOutputFile.txt")  

 以上代碼是用來處理一個文本,將不屬于中文的行依次輸出到一個新的文件。

 
3.注意

第9、10行代碼,langid.classify(line)的輸出結(jié)果是一個二元組,二元組的第一項表示該文本所屬的語系,如:zh表示中文、en表示英語、等等;二元組的第二項表示該文本中屬于第一項中語系的所占比例。

 

希望對大家有所幫助。

發(fā)表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發(fā)表
主站蜘蛛池模板: 灵宝市| 衢州市| 陇西县| 丹巴县| 兴化市| 七台河市| 高唐县| 会东县| 三门峡市| 江门市| 黎城县| 金堂县| 班玛县| 门头沟区| 柘城县| 达尔| 镇原县| 周口市| 盱眙县| 明溪县| 门源| 德令哈市| 长治县| 息烽县| 丹东市| 宜川县| 颍上县| 汨罗市| 敖汉旗| 玉林市| 军事| 颍上县| 临沂市| 分宜县| 建德市| 明溪县| 岳普湖县| 嘉荫县| 南昌市| 教育| 石景山区|