国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 學(xué)院 > 開發(fā)設(shè)計 > 正文

pymmseg安裝方法以及亂碼解決

2019-11-14 17:31:19
字體:
供稿:網(wǎng)友
pymmseg-cpp is a Python port of the rmmseg-cpp PRoject. rmmseg-cpp is a MMSEG Chinese Word segmenting algorithm implemented in C++ with a Ruby interface.
下載地址:http://code.google.com/p/pymmseg-cpp/
windows下用戶可以下載 pymmseg-cpp-win32-1.0.1.tar.gz,安裝方法如下:
1.將壓縮包解壓
2.安裝vs2008,使用VS2008的命令行窗口來編譯程序,位置在 工具/visual studio 2008 command prompt

從這個命令行窗口進入pymmseg/mmseg-cpp文件夾。輸入python build.py,回車

編寫程序如下

#coding:UTF-8from pymmseg import mmsegmmseg.dict_load_defaults()text = '今天我真的好開心'algor = mmseg.Algorithm(text)for tok in algor:    print '%s [%d..%d]'%(tok.text,tok.start,tok.end)

運行后會出現(xiàn)亂碼,這是因為mmseg支持的是utf8, windows的本地默認(rèn)編碼是cp936,也就是gbk編碼

將代碼改寫如下即可

# coding: UTF-8from pymmseg import mmseg   mmseg.dict_load_defaults()    text = '今天我真的好開心'  algor = mmseg.Algorithm(text)    for tok in algor:        print '%s [%d..%d]' % (tok.text.decode('UTF-8').encode('GBK'), tok.start, tok.end)  

 


發(fā)表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發(fā)表
主站蜘蛛池模板: 淅川县| 收藏| 五指山市| 淄博市| 苍梧县| 易门县| 三河市| 洛宁县| 新晃| 墨江| 红安县| 扶风县| 天镇县| 安图县| 休宁县| 张家口市| 长子县| 大邑县| 黄山市| 中江县| 读书| 大兴区| 华容县| 大城县| 连云港市| 萨迦县| 新巴尔虎左旗| 安图县| 鸡西市| 宁德市| 福贡县| 阿合奇县| 万全县| 凤庆县| 兴山县| 上饶县| 延长县| 南华县| 四川省| 贞丰县| 庆城县|