国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

利用Python將文本中的中英文分離方法

2020-02-15 23:29:11
字體:
來源:轉載
供稿:網友

在進行文本分析、提取關鍵詞時,新聞評論等文本通常是中英文及其他語言的混雜,若不加處理直接分析,結果往往差強人意。

下面對中英文文本進行分離做一下總結:

1、超短文本,ASCII識別。

s = "China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.該集團總裁朱利安周二表示,中國聯想控股將分拆其多個業務部門在股市上市。"result = "".join(i for i in s if ord(i) < 256)print(result)
out:China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.

2、unicode編碼識別

import res = "China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.該集團總裁朱利安周二表示,中國聯想控股將分拆其多個業務部門在股市上市。"uncn = re.compile(r'[/u0061-/u007a,/u0020]')en = "".join(uncn.findall(s.lower()))print(en)
out:chinas legend holdings will split its several business arms to go public on stock markets, the groups president zhu linan said on tuesday

中文的編碼范圍是:/u4e00-/u9fa5,相應的[^/u4e00-/u9fa5]可匹配非中文。

匹配英文時,需要將空格[/u0020]加入,不然單詞之間沒空格了。

以上這篇利用Python將文本中的中英文分離方法就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支持武林站長站。

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 建德市| 会东县| 随州市| 平南县| 石景山区| 五原县| 航空| 汾阳市| 三明市| 瑞安市| 梅河口市| 资兴市| 蕉岭县| 庆城县| 札达县| 贺州市| 孟津县| 沭阳县| 门头沟区| 阳信县| 商洛市| 咸宁市| 白银市| 汾阳市| 山丹县| 溧阳市| 突泉县| 达孜县| 凤山县| 清苑县| 潮安县| 柘荣县| 砀山县| 澜沧| 元江| 吕梁市| 广丰县| 曲麻莱县| 锡林浩特市| 大同市| 洪泽县|