国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 網站 > Apache > 正文

推薦 幾種Apache Lucene 分詞系統

2024-08-27 18:22:07
字體:
來源:轉載
供稿:網友

1、StopAnalyzer

StopAnalyzer能過濾詞匯中的特定字符串和詞匯,并且完成大寫轉小寫的功能。

2、StandardAnalyzer

StandardAnalyzer根據空格和符號來完成分詞,還可以完成數字、字母、E-mail地址、IP地址以及中文字符的分析處理,還可以支持過濾詞表,用來代替StopAnalyzer能夠實現的過濾功能。

3、SimpleAnalyzer

SimpleAnalyzer具備基本西文字符詞匯分析的分詞器,處理詞匯單元時,以非字母字符作為分割符號。分詞器不能做詞匯的過濾,之進行詞匯的分析和分割。輸出地詞匯單元完成小寫字符轉換,去掉標點符號等分割符。

在全文檢索系統開發中,通常用來支持西文符號的處理,不支持中文。由于不完成單詞過濾功能,所以不需要過濾詞庫支持。詞匯分割策略上簡單,使用非英文字符作為分割符,不需要分詞詞庫的支持。

4、WhitespaceAnalyzer

WhitespaceAnalyzer使用空格作為間隔符的詞匯分割分詞器。處理詞匯單元的時候,以空格字符作為分割符號。分詞器不做詞匯過濾,也不進行小寫字符轉換。

實際中可以用來支持特定環境下的西文符號的處理。由于不完成單詞過濾和小寫字符轉換功能,也不需要過濾詞庫支持。詞匯分割策略上簡單使用非英文字符作為分割符,不需要分詞詞庫支持。

5、KeywordAnalyzer

KeywordAnalyzer把整個輸入作為一個單獨詞匯單元,方便特殊類型的文本進行索引和檢索。針對郵政編碼,地址等文本信息使用關鍵詞分詞器進行索引項建立非常方便。

6、CJKAnalyzer

CJKAnalyzer內部調用CJKTokenizer分詞器,對中文進行分詞,同時使用StopFilter過濾器完成過濾功能,可以實現中文的多元切分和停用詞過濾。在Lucene3.0版本中已經棄用。

7、ChineseAnalyzer

ChineseAnalyzer功能與StandardAnalyzer分析器在處理中文是基本一致,都是切分成單個的雙字節中文字符。在Lucene3.0版本中已經棄用。

8、PerFieldAnalyzerWrapper

PerFieldAnalyzerWrapper功能主要用在針對不同的Field采用不同的Analyzer的場合。比如對于文件名,需要使用KeywordAnalyzer,而對于文件內容只使用StandardAnalyzer就可以了。通過addAnalyzer()可以添加分類器。

9、IKAnalyzer

實現了以詞典為基礎的正反向全切分,以及正反向最大匹配切分兩種方法。IKAnalyzer是第三方實現的分詞器,繼承自Lucene的Analyzer類,針對中文文本進行處理。

10、JE-Analysis

JE-Analysis是Lucene的中文分詞組件,需要下載。

11、ICTCLAS4J

ictclas4j中文分詞系統是sinboy在中科院張華平和劉群老師的研制的FreeICTCLAS的基礎上完成的一個java開源分詞項目,簡化了原分詞程序的復雜度,旨在為廣大的中文分詞愛好者一個更好的學習機會。

12、Imdict-Chinese-Analyzer

imdict-chinese-analyzer 是 imdict智能詞典 的智能中文分詞模塊,算法基于隱馬爾科夫模型(Hidden Markov Model, HMM),是中國科學院計算技術研究所的ictclas中文分詞程序的重新實現(基于Java),可以直接為lucene搜索引擎提供簡體中文分詞支持。

13、Paoding Analysis

Paoding Analysis中文分詞具有極 高效率 和 高擴展性。引入隱喻,采用完全的面向對象設計,構思先進。其效率比較高,在PIII 1G內存個人機器上,1秒可準確分詞100萬漢字。采用基于不限制個數的詞典文件對文章進行有效切分,使能夠將對詞匯分類定義。能夠對未知的詞匯進行合理解析。

14、MMSeg4J

mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法(http://technology.chtsai.org/mmseg/ )實現的中文分詞器,并實現 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用。 MMSeg 算法有兩種分詞方法:Simple和Complex,都是基于正向最大匹配。Complex 加了四個規則過慮。官方說:詞語的正確識別率達到了 98.41%。mmseg4j 已經實現了這兩種分詞算法

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 保山市| 墨脱县| 龙州县| 天等县| 灌南县| 南华县| 新巴尔虎左旗| 常熟市| 建宁县| 苏州市| 康平县| 延吉市| 探索| 乌兰浩特市| 固阳县| 莱州市| 呼图壁县| 花莲县| 临潭县| 滁州市| 丹寨县| 资中县| 安陆市| 大庆市| 墨江| 微山县| 灌南县| 舞阳县| 江阴市| 钟山县| 彩票| 塔河县| 济宁市| 改则县| 玉门市| 江都市| 察哈| 育儿| 海口市| 江门市| 澳门|