国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

pyhanlp安裝介紹和簡單應用

2020-02-16 01:19:00
字體:
來源:轉載
供稿:網友

1. 前言

中文分詞≠自然語言處理!

Hanlp

HanLP是由一系列模型與算法組成的Java工具包,目標是普及自然語言處理在生產環境中的應用。HanLP具備功能完善、性能高效、架構清晰、語料時新、可自定義的特點。

功能:中文分詞 詞性標注 命名實體識別 依存句法分析 關鍵詞提取新詞發現 短語提取 自動摘要 文本分類 拼音簡繁

中文分詞只是第一步;HanLP從中文分詞開始,覆蓋詞性標注、命名實體識別、句法分析、文本分類等常用任務,提供了豐富的API。

不同于一些簡陋的分詞類庫,HanLP精心優化了內部數據結構和IO接口,做到了毫秒級的冷啟動、千萬字符每秒的處理速度,而內存最低僅需120MB。無論是移動設備還是大型集群,都能獲得良好的體驗。

不同于市面上的商業工具,HanLP提供訓練模塊,可以在用戶的語料上訓練模型并替換默認模型,以適應不同的領域。項目主頁上提供了詳細的文檔,以及在一些開源語料上訓練的模型。

HanLP希望兼顧學術界的精準與工業界的效率,在兩者之間取一個平衡,真正將自然語言處理普及到生產環境中去。

我們使用的pyhanlp是用python包裝了HanLp的java接口。

2. pyhanlp的安裝和使用

2.1 python下安裝pyhanlp

pip安裝

sudo pip3 install pyhanlp

第一次import pyhanlp會下載一個比較大的數據集,需要耐心等待下,后面再import就不會有了。

from pyhanlp import *

詳情請見pyhanlp官方文檔

2.2 pyhanlp簡單使用方法

分詞使用

from pyhanlp import *print(HanLP.segment("今天開心了嗎?"))>>> [今天/t, 開心/a, 了/ule, 嗎/y, ?/w]

依存分析使用

from pyhanlp import *print(HanLP.parseDependency("今天開心了嗎?"))>>> 1  今天 今天 nt t  _  2  狀中結構  _  _>>> 2  開心 開心 a  a  _  0  核心關系  _  _>>> 3  了  了  e  y  _  2  右附加關系  _  _>>> 4  嗎  嗎  e  y  _  2  右附加關系  _  _>>> 5  ?  ?  wp w  _  2  標點符號  _  _

2.3 pyhanlp可視化

如果大家看不太清楚上面的輸出,pyhanlp提供了一個很好的展示交付界面,只要一句命令就能啟動一個web服務

hanlp serve

登錄http://localhost:8765就能看下可視化界面,能看到分詞結果和依存關系的結果,是不是很直觀。這個網頁上還有安裝說明、源碼鏈接、文檔鏈接、常見的問題(FAQ)。

以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持武林站長站。

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 焦作市| 金山区| 仁怀市| 泗水县| 微山县| 沧源| 海丰县| 正镶白旗| 岚皋县| 龙门县| 娱乐| 大宁县| 桐乡市| 涞水县| 新民市| 焉耆| 上高县| 湟源县| 湖北省| 顺平县| 玉山县| 榕江县| 扶余县| 洞头县| 康乐县| 宁强县| 千阳县| 定南县| 甘德县| 邮箱| 张家川| 永昌县| 宁明县| 安泽县| 屯门区| 金秀| 怀宁县| 岳西县| 临潭县| 抚远县| 荔浦县|