国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 學(xué)院 > 開發(fā)設(shè)計 > 正文

使用Stanford CoreNLP工具包處理中文

2019-11-11 03:58:18
字體:
供稿:網(wǎng)友

這幾天剛剛接觸自然語言處理,使用了Stanford CoreNLP工具。但畢竟是第一次用,所以遇到很多問題,現(xiàn)將解決方案記下(容易百度到的錯誤就不記了)。

其中用Stanford CoreNLP集合工具來處理中文的方法網(wǎng)上很少有說明,官方Demo也沒有說明,特在此記下。

Stanford 提供了很多NLP工具,默認均直接支持英文,部分需要model支持中文。這是這些工具官方列表地址:http://nlp.stanford.edu/software/

部分工具列表如圖:

其中第一個Stanford CoreNLP工具可以說是其它工具的集合,功能相對強大。假如你只需要進行分詞,則使用Stanford Word Segmenter工具即可。該工具支持中文。而且下載的文件中也有適用于中文的Demo,比較容易理解。但是如果你想使用集合工具Stanford CoreNLP處理中文,則網(wǎng)上相關(guān)資料很少,下載的Demo文件中只有處理英文的。

下面介紹怎么用集合工具Stanford CoreNLP處理中文:

注意:需要java8,怎么配合eclipse使用,自己百度,目前需要安裝一個更新。

1、你需要下載Stanford CoreNLP,我下載的是3.6.0:http://stanfordnlp.github.io/CoreNLP/index.html#download

2、你需要下載中文支持包:stanford-chinese-corenlp-models.jar,我下載的也是3.6.0:http://stanfordnlp.github.io/CoreNLP/index.html#download

3、下載完畢后,Stanford CoreNLP需要解壓,然后將stanford-chinese-corenlp-models.jar放到解壓文件夾里,將文件夾中的所有.jar加入你建立的工程中。

然后測試代碼與英文的Demo不同,代碼很簡單

public class test_demo {    public static void main(String[] args) {    String PRops="StanfordCoreNLP-chinese.properties";    StanfordCoreNLP pipeline = new StanfordCoreNLP(props);    Annotation annotation;    //if  data from file    //annotation = new Annotation(IOUtils.slurpFileNoExceptions(file));     annotation = new Annotation("這家酒店很好,我很喜歡。");    pipeline.annotate(annotation);    pipeline.prettyPrint(annotation, System.out);}}

主要就是標紅的代碼。這個是stanford-chinese-corenlp-models.jar中的一個文件,可以用解壓軟件打開查看一下,里邊默認定義了使用哪些工具,以及相應(yīng)的設(shè)置,可以自己根據(jù)需要修改,箭頭指示的為默認支持的工具,分詞、分句、詞性標注、命名實體識別、語法分析等等,下邊是每個工具對應(yīng)的參數(shù)設(shè)置,這樣就可以用這一強大工具來處理中文了。

結(jié)果截圖:


發(fā)表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發(fā)表
主站蜘蛛池模板: 浦江县| 汉阴县| 老河口市| 安国市| 色达县| 和平区| 缙云县| 师宗县| 旬邑县| 从江县| 大港区| 九江市| 保康县| 视频| 扎鲁特旗| 泽库县| 冷水江市| 惠来县| 石棉县| 襄樊市| 德兴市| 贵港市| 襄汾县| 三门县| 南川市| 临澧县| 稷山县| 通渭县| 灵台县| 麻城市| 抚州市| 宝鸡市| 阳信县| 广灵县| 平塘县| 金山区| 门源| 墨竹工卡县| 镇康县| 新兴县| 昌图县|