国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 學(xué)院 > 開發(fā)設(shè)計 > 正文

Lucene初探之?dāng)?shù)據(jù)格式詳情(二)

2019-11-08 18:21:49
字體:
供稿:網(wǎng)友

Lucene初探之?dāng)?shù)據(jù)格式詳情(二)

接上一篇Lucene初探之?dāng)?shù)據(jù)格式詳情(-)

補(bǔ)充一下Segment_N文件的具體格式:

DocStoreOffsetDocStoreSegmentDocStorelsCompoundFile Lucene中存儲域和詞向量有兩種方案。第一種是每個段單獨存儲自己的域和詞向量信息;第二種是多個段共享域和詞向量,把域和詞向量存儲到一個段里面去。如果DocStoreOffset值為-1,則該Segment段的后續(xù)正向相關(guān)信息的存儲采用第一種方案,即單獨存儲自己的域和詞向量信息;也就是說當(dāng)前segment的段名為A,則當(dāng)前索引目錄下便會有相應(yīng)的A.fdt,A.fdx,A.tvf,A.tvd,A.tvx文件等,DocStoreSegment和DocStoreCompoundFile則不存在;當(dāng)DocStoreOffset不為-1,則代表當(dāng)前段的信息存儲方案是第二種方案,即和其它段共享。此時,DocStoreOffset的值為當(dāng)前段的域和詞向量信息在共享段中的位置偏移量,而DocStoreSegment則存儲了共享存儲段的名稱,比如共享存儲段名為B,那么此段的信息將被存儲在B.fdt,B.fdx等文件中;IndexWrtier.flush(boolean triggerMerge, boolean flushDocStores, boolean flushDeletes),這個方法中的flushDocStores是用來設(shè)置是否采用共享存儲的方案,最終,其會落到DocumentsWriter.closeDocStore()方法,如果flushDocStores為false,則這個方法不被調(diào)用,那么下次再添加新的信息進(jìn)來的時候,由于上一次打開的DocumentsWriter還沒有被關(guān)閉掉,則本次添加的信息會寫入同上一次寫入的文件相同的段文件中。HasSingeNormFile 之前我們介紹過,在調(diào)用搜索引擎進(jìn)行搜索操作的時候,搜索引擎最終會對匹配到的文件進(jìn)行一次權(quán)重打分,其中標(biāo)準(zhǔn)化因子在打分的過程中發(fā)揮了很大的作用;不同的文檔的域都可以有自己的標(biāo)準(zhǔn)化因子,當(dāng)HasSingleNormFile的值為1的時候,所有的標(biāo)準(zhǔn)化因子都存在.nrm文件中,表示所有的文檔都以統(tǒng)一的標(biāo)準(zhǔn)化因子來打分;如果不為1,則每個段都可以在.fN文件中設(shè)置自己的標(biāo)準(zhǔn)化因子,其中N為版本號。NumField 域的數(shù)量;NormGen 是一個數(shù)組;如果每個域都有自己的標(biāo)準(zhǔn)化因子,則數(shù)組描述每個標(biāo)準(zhǔn)化因子文件的版本號;isCompoundFile 是否為復(fù)合文件,也就是將同一個段的所有文件保存在同一個文件中,減少每次打開段的時候打開文件的數(shù)量,其可以通過IndexWriter.setUserCompoundFile()來控制;DeletionCount 記錄了此段中被刪除文檔的數(shù)目;Hasprox 可為0、1,如果有詞頻需要被保存,則將其置為1;checkSum 此文件的segment_N的校驗和;

上面這些基本上是段的基本數(shù)據(jù)格式,下一篇我們?nèi)チ私庖幌掠虻南嚓P(guān)數(shù)據(jù)格式


發(fā)表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發(fā)表
主站蜘蛛池模板: 金阳县| 湾仔区| 通化县| 鸡东县| 呈贡县| 西丰县| 阳西县| 珲春市| 揭西县| 芦溪县| 荆州市| 上饶市| 乌兰浩特市| 海门市| 长乐市| 开远市| 旌德县| 南昌市| 天水市| 明光市| 台南县| 龙江县| 大渡口区| 洱源县| 辛集市| 洪雅县| 夏津县| 仲巴县| 靖江市| 嵊州市| 垫江县| 辰溪县| 永寿县| 奇台县| 老河口市| 石景山区| 尼玛县| 广灵县| 东莞市| 湟中县| 南平市|