国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 學(xué)院 > 開發(fā)設(shè)計 > 正文

Lucene擴(kuò)展停用詞字典與自定義詞庫

2019-11-14 09:51:52
字體:
供稿:網(wǎng)友

一、擴(kuò)展停用詞字典

IK Analyzer默認(rèn)的停用詞詞典為IKAnalyzer2012_u6/stopWord.dic,這個停用詞詞典并不完整,只有30多個英文停用詞。可以擴(kuò)展停用詞字典,新增ext_stopword.dic,文件和IKAnalyzer.cfg.xml在同一目錄,編輯IKAnalyzer.cfg.xml把新增的停用詞字典寫入配置文件,多個停用詞字典用逗號隔開,如下所示。

<entry key="ext_stopwords">stopword.dic;ext_stopword.dic</entry>

二、擴(kuò)展自定義詞庫

IK Analyzer也支持自定義詞典,在IKAnalyzer.cfg.xml同一目錄新建ext.dic,把新的詞語按行寫入文件,編輯IKAnalyzer.cfg.xml把新增的停用詞字典寫入配置文件,多個字典用空格隔開,如下所示:

<entry key="ext_dict">ext.dic;</entry>比如,對于網(wǎng)絡(luò)流行語“厲害了我的哥”,默認(rèn)的詞庫中沒有這個詞,在自定義字典中寫入以后才能分成一個詞。

三、測試自定義詞典效果

import java.io.IOException;import java.io.StringReader;import org.apache.lucene.analysis.Analyzer;import org.apache.lucene.analysis.TokenStream;import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;import tup.lucene.ik.IKAnalyzer6x;public class ExtDicTest { PRivate static String str = "厲害了我的哥!中國環(huán)保部門發(fā)布了治理北京霧霾的的方法!"; public static void main(String[] args) throws IOException { Analyzer analyzer = new IKAnalyzer6x(true); StringReader reader = new StringReader(str); TokenStream toStream = analyzer.tokenStream(str, reader); toStream.reset(); CharTermAttribute teAttribute= toStream.getAttribute(CharTermAttribut e.class); System.out.println("分詞結(jié)果:"); while (toStream.incrementToken()) { System.out.print(teAttribute.toString() + "|"); } System.out.println("/n"); analyzer.close(); }}

運行結(jié)果:

加載擴(kuò)展詞典:ext.dic加載擴(kuò)展停止詞典:stopword.dic分詞結(jié)果:厲|害了|的哥|中國|環(huán)保部門|發(fā)布|治理|北京|霧|霾|方法|

在ext.dic中添加自定義詞項:

中國環(huán)保部門北京霧霾厲害了我的哥

再次運行,結(jié)果如下:

加載擴(kuò)展詞典:ext.dic加載擴(kuò)展停止詞典:stopword.dic分詞結(jié)果:厲害了我的哥|中國環(huán)保部門|發(fā)布|治理|北京霧霾|方法|
發(fā)表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發(fā)表
主站蜘蛛池模板: 思茅市| 车致| 泊头市| 大竹县| 彰武县| 江门市| 遂溪县| 湾仔区| 马龙县| 宁都县| 通山县| 襄樊市| 刚察县| 台中市| 大庆市| 广州市| 吉首市| 大冶市| 孟津县| 韩城市| 鄂尔多斯市| 原平市| 普定县| 饶河县| 奎屯市| 武乡县| 准格尔旗| 北辰区| 仲巴县| 三原县| 元朗区| 河东区| 咸阳市| 普兰店市| 平陆县| 金湖县| 甘德县| 武隆县| 东海县| 夏津县| 英德市|