国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 學院 > 開發設計 > 正文

Lucene擴展停用詞字典與自定義詞庫

2019-11-14 10:25:37
字體:
來源:轉載
供稿:網友

一、擴展停用詞字典

IK Analyzer默認的停用詞詞典為IKAnalyzer2012_u6/stopWord.dic,這個停用詞詞典并不完整,只有30多個英文停用詞。可以擴展停用詞字典,新增ext_stopword.dic,文件和IKAnalyzer.cfg.xml在同一目錄,編輯IKAnalyzer.cfg.xml把新增的停用詞字典寫入配置文件,多個停用詞字典用逗號隔開,如下所示。

<entry key="ext_stopwords">stopword.dic;ext_stopword.dic</entry>

二、擴展自定義詞庫

IK Analyzer也支持自定義詞典,在IKAnalyzer.cfg.xml同一目錄新建ext.dic,把新的詞語按行寫入文件,編輯IKAnalyzer.cfg.xml把新增的停用詞字典寫入配置文件,多個字典用空格隔開,如下所示:

<entry key="ext_dict">ext.dic;</entry>比如,對于網絡流行語“厲害了我的哥”,默認的詞庫中沒有這個詞,在自定義字典中寫入以后才能分成一個詞。

三、測試自定義詞典效果

import java.io.IOException;import java.io.StringReader;import org.apache.lucene.analysis.Analyzer;import org.apache.lucene.analysis.TokenStream;import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;import tup.lucene.ik.IKAnalyzer6x;public class ExtDicTest { PRivate static String str = "厲害了我的哥!中國環保部門發布了治理北京霧霾的的方法!"; public static void main(String[] args) throws IOException { Analyzer analyzer = new IKAnalyzer6x(true); StringReader reader = new StringReader(str); TokenStream toStream = analyzer.tokenStream(str, reader); toStream.reset(); CharTermAttribute teAttribute= toStream.getAttribute(CharTermAttribut e.class); System.out.println("分詞結果:"); while (toStream.incrementToken()) { System.out.print(teAttribute.toString() + "|"); } System.out.println("/n"); analyzer.close(); }}

運行結果:

加載擴展詞典:ext.dic加載擴展停止詞典:stopword.dic分詞結果:厲|害了|的哥|中國|環保部門|發布|治理|北京|霧|霾|方法|

在ext.dic中添加自定義詞項:

中國環保部門北京霧霾厲害了我的哥

再次運行,結果如下:

加載擴展詞典:ext.dic加載擴展停止詞典:stopword.dic分詞結果:厲害了我的哥|中國環保部門|發布|治理|北京霧霾|方法|
上一篇:洛谷 1372

下一篇:OpenCV使用小結

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 洪泽县| 芜湖市| 崇义县| 南汇区| 特克斯县| 漳州市| 鄂托克前旗| 万源市| 大名县| 屯留县| 黑河市| 湖北省| 成都市| 钦州市| 阳朔县| 德庆县| 邛崃市| 淄博市| 武平县| 呼图壁县| 泸水县| 长沙县| 佛学| 榆树市| 甘泉县| 桃源县| 根河市| 新密市| 洛隆县| 垣曲县| 安溪县| 海林市| 桂林市| 泉州市| 常熟市| 呼玛县| 古田县| 峨边| 漳浦县| 井冈山市| 凤翔县|