国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 學院 > 開發設計 > 正文

使用Lucene.NET實現數據檢索功能

2019-11-17 03:13:21
字體:
來源:轉載
供稿:網友

使用Lucene.NET實現數據檢索功能

  • 引言
在軟件系統中查詢數據是再平常不過的事情了,那當數據量非常大,數據存儲的媒介不是數據庫,或者檢索方式要求更為靈活的時候,我們該如何實現數據的檢索呢?為數據建立索引吧,利用索引技術可以更靈活更快捷的實現檢索功能。 以下我要介紹的是.NET版的Lucene在實際項目中是如何應用的。
  • 案例概要
我以一個文件檢索系統為例,主要功能就是為硬盤中大量文件建立一個統一的檢索平臺,并且不使用數據庫。
  • 思路
該系統主要分為兩部分,第一部分是索引的管理,為文件建立或更新索引;第二部分是文件的檢索,根據關鍵詞與索引庫進行匹配并獲得相關信息。這兩部分功能可以整合在一個項目中,也可以分開在不同的項目中。
  • 分詞
需要注意的是不論是索引的管理還是文件的檢索都離不開一樣東西,那就是分詞,正是分詞的力量將多個關鍵字可以按照分詞規則精確的與龐大的索引庫進行匹配。 因為Lucene是國外的技術,所以對中文分詞支持度并不高,這里我推薦使用盤古分詞。
  • 索引的管理
索引的管理主要是建立索引、更新索引和刪除索引。需要注意的是用做識別的ID字段不能使用帶有特殊符號的字符串,盡量使用詞或者編號等,不然索引可能無法刪除,也無法正常更新。
 1 //指定索引庫文件存放文件位置 2 FSDirectory directory = FSDirectory.Open(new DirectoryInfo(this.IndexDataDir), new NativeFSLockFactory()); 3 //判斷索引文件目錄是否存在 4 bool isExist = IndexReader.IndexExists(directory); 5 if (isExist) 6 { 7     if (IndexWriter.IsLocked(directory)) 8     { 9         IndexWriter.Unlock(directory);10     }11 }12 //盤古分詞器13 PanGuAnalyzer analyzer = new PanGuAnalyzer();14 //索引寫入類15 IndexWriter writer = new IndexWriter(directory, analyzer, !isExist, IndexWriter.MaxFieldLength.UNLIMITED);16 //循環隊列執行操作17 while (IndexDataQueue.Count > 0)18 {19     Document document = new Document();20 //這是我為索引數據自定義的模型類,主要內容是文件的路徑、名稱、內容和索引管理的操作類型(新增、更新、刪除)21     BaseDataMode mode = IndexDataQueue.Dequeue();22     switch (mode.Type)23     {24         case OperationType.Insert:25             {26                 foreach (KeyValuePair<string, string> kv in mode.Content)27                 {28                     //這里kv.Key是設置索引內字段的名稱,kv.Value是這個字段內存儲的內容。29                     document.Add(new Field(kv.Key, kv.Value, Field.Store.YES, Field.Index.ANALYZED,Field.TermVector.WITH_POSITIONS_OFFSETS));30                 }31                 writer.AddDocument(document);32             }; break;33         case OperationType.Update:34         {35             //設置刪除條件36             MultiFieldQueryParser parser = new MultiFieldQueryParser(Lucene.Net.Util.Version.LUCENE_29, new string[] { "id" }, analyzer);37             Query query = parser.Parse(mode.Content["id"]);38             writer.DeleteDocuments(query);39             foreach (KeyValuePair<string, string> kv in mode.Content)40             {41                 document.Add(new Field(kv.Key, kv.Value, Field.Store.YES, Field.Index.ANALYZED,Field.TermVector.WITH_POSITIONS_OFFSETS));42             }43             writer.AddDocument(document);44         }; break;45         case OperationType.Delete:46         {47             MultiFieldQueryParser parser = new MultiFieldQueryParser(Lucene.Net.Util.Version.LUCENE_29, new string[] { "id" }, analyzer);48             Query query = parser.Parse(mode.Content["id"]);49             writer.DeleteDocuments(query);50         }; break;51         default: { }; break;52     }53 }54 //提交操作55 writer.Commit();56 //優化57 writer.Optimize();58 //關閉連接59 writer.Close();60 directory.Close();
  • 文件檢索
文件檢索主要的過程是,先對查詢的內容進行分詞,將其分解為多個關鍵詞,然后使用Lucene內置的搜索功能對已建好的索引庫進行查詢,最后將搜索結果顯示出來。
 1 //指定索引庫文件存放文件位置 2 FSDirectory directory = FSDirectory.Open(new DirectoryInfo(this.IndexDir), new NativeFSLockFactory()); 3 IndexReader reader = IndexReader.Open(directory, true); 4 IndexSearcher searcher = new IndexSearcher(reader); 5 //設置關鍵詞在條件中為OR關系 6 BooleanQuery queryOr = new BooleanQuery(); 7 foreach (string Word in SplitContent.SplitByPanGu(keyword)) 8 { 9     foreach (KeyValuePair<string, string> kv in Mode.Content)10     {11         TermQuery query = new TermQuery(new Term(kv.Key, word));12         //這里設置條件為Or關系13         queryOr.Add(query, BooleanClause.Occur.SHOULD);14     }15 }16 //獲取搜索結果       17 //1000為搜索文件的下標限制,設置這個可以控制檢索的范圍,也可以用于分頁顯示18 TopDocs tds = searcher.Search(queryOr, null, 1000);19 ScoreDoc[] docs = tds.scoreDocs;20 for (int i = 0; i < docs.Length; i++)21 {22     int docId = docs[i].doc;23     Document doc = searcher.Doc(docId);24 string content = doc.Get("索引內字段的名稱");25 }26  
  • 資源

  DLL與詞庫:http://download.csdn.net/detail/aaakingwin/7208679


發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 安康市| 浠水县| 松溪县| 巴彦淖尔市| 合水县| 嘉义县| 昆山市| 孝义市| 景谷| 杨浦区| 合川市| 伊宁市| 阿瓦提县| 大连市| 唐河县| 舟山市| 怀柔区| 璧山县| 岳池县| 莱芜市| 手机| 铜梁县| 铜山县| 大方县| 县级市| 榆中县| 柳河县| 湖南省| 惠州市| 衡南县| 大宁县| 宽城| 富源县| 深圳市| 长春市| 拉萨市| 莎车县| 鹿泉市| 昭平县| 宜君县| 桂平市|