2.1 信息檢索系統(tǒng)
數(shù)據(jù)檢索系統(tǒng)可分為四個部分: 1、數(shù)據(jù)預(yù)處理: 從多種格式的數(shù)據(jù)中提取正文和其他所需的信息。 2、索引生成: 索引是索引項的集合,一個索引項是由一個節(jié)點的關(guān)鍵碼和該節(jié)點的存儲位置組成的關(guān)聯(lián)。 目前主流的方法是以詞為單位構(gòu)造倒排索引表。 3、查詢處理 用戶輸入的查詢條件可以有多種形式,很多系統(tǒng)采用查詢擴(kuò)展克服這一問題,很多人還采用相關(guān)反饋、關(guān)聯(lián)矩陣等方法對查詢條件進(jìn)行深入挖掘。 4、檢索 對結(jié)果進(jìn)行重排序,一般的信息檢索系統(tǒng)采用基于內(nèi)容的計算技術(shù)來分析結(jié)果和查詢的相關(guān)性。
2.2 信息檢索模型
信息檢索模型是指如何對查詢和文檔進(jìn)行表示,然后對它們進(jìn)行相似度計算的框架和方法。
2.2.1 布爾模型
一個文檔被表示為關(guān)鍵詞的集合,查詢式(Queries)被表示為關(guān)鍵詞的布爾組合,用“與或非”連接起來,并用括號指示優(yōu)先次序。
2.2.2 向量空間模型
1、查詢和文檔都被看成是由若干特征詞組成的向量,每一個文檔都被看成向量空間中的一個點,也就是有若干特征詞描述的向量。文檔與查詢的相似性問題被描述成向量空間中的兩個向量之間的相似度。按相似度大小將文檔排序后提交給用戶。相似度值的大小反映了文檔與用戶查詢要求的相關(guān)程度。 2、術(shù)語: 1)文檔d(Document):泛指各種及其可讀的記錄。 2)特征項t(Term):也稱為索引項,是指出現(xiàn)在文檔d中而且能夠代表該文檔內(nèi)容的基本語言單位。 3)特征項權(quán)重
2.2.3 概率模型
1、檢索模型是基于一個文件與提問式的相關(guān)度是高于還是低于非相關(guān)度的概率來進(jìn)行文檔檢索的檢索方法。 2、概率模型的優(yōu)點是,文檔可以按照他們相關(guān)概率遞減的順序來計算秩(rank),其缺點為:1)開始時需要猜想吧文檔分為相關(guān)和不想關(guān)的兩個集合,一般來說很難;2)世紀(jì)這種模型沒有考慮索引術(shù)語在文檔中的頻率(因為所有的權(quán)重都是二元的),而索引術(shù)語都是相互獨立的;3)概率模型是否要比向量模型好還存在著爭論,但現(xiàn)在向量模型的使用比較廣泛。
2.3 信息檢索評價
1、信息評價是對信息檢索系統(tǒng)性能進(jìn)行評估的活動。 2、信息檢索系統(tǒng)的目標(biāo)是在較少消耗情況下盡快、全面返回準(zhǔn)確的結(jié)果。 3、早期常用的測評指標(biāo)包括準(zhǔn)確率(PRecision)、召回率(Recall)、F1值等。其定義如下:
2.4 xml信息檢索
XML信息檢索是指對多個XML文檔進(jìn)行查詢以活得理想結(jié)果。目前XML信息檢索的研究主要包括XML索引結(jié)構(gòu)、XML檢索與排序方法,以及XML檢索評價方法等。基于XML的信息檢索系統(tǒng)有兩種信息檢索單位:一種是以文檔為檢索單位,另一種是以文檔中被標(biāo)注元素為檢索單位。
2.4.1 XML索引結(jié)構(gòu)
一般認(rèn)為XML文檔的結(jié)構(gòu)信息包含兩方面:一是XML樹中的祖先-后代關(guān)系(含父-子關(guān)系);二是兄弟之間的關(guān)系。
2.4.1.1 支持文檔檢索的索引結(jié)構(gòu)
該方法只適合與以文檔為檢索單位的XML搜索引擎。
2.4.1.2
1、基于路徑記錄和結(jié)構(gòu)索引思想,本體索引包括所有元素名稱,用來提高檢索效率。 2、基于樹節(jié)點編碼思想的索引結(jié)構(gòu)通過對XML文檔樹節(jié)點采用不同編碼方案來快速判斷兩個節(jié)點是夠存在前后代關(guān)系。
2.4.1.3 節(jié)點編碼方案、
1、祖先后代編碼(先序,后序),不足之處是不能判定是父子關(guān)系,當(dāng)文檔結(jié)構(gòu)變化時,節(jié)點的標(biāo)識要重新計算,所需花銷較大。 2、間隔編碼,(pre,size),數(shù)據(jù)庫更新特別是插入時,間隔編碼只需要較少的重新計算量,節(jié)點間隔的大小僅在插入節(jié)點的祖先節(jié)點改變。 3、虛擬節(jié)點編碼,虛節(jié)點碼采用廣度優(yōu)先的編碼方式,虛節(jié)點編碼模式支持一定程度的插入增量更新。 4、兄弟編碼,具有同一個路徑標(biāo)識的父節(jié)點的子節(jié)點由兄弟數(shù)來區(qū)分。更靈活,支持增量更新。
2.4.2 XML檢索方法
2.4.2.1 基于改進(jìn)的向量空間檢索方法
1、利用XML文檔的結(jié)構(gòu)和語義信息,考慮檢索單元的結(jié)構(gòu)語義,從而提高查詢效率 2、將XML及路徑語言與傳統(tǒng)的向量空間模型想結(jié)合,基于簡單XPath路徑的向量檢索算法來時間線對XML文檔的檢索。 3、此外,在改進(jìn)的向量空間模型中,特征詞的權(quán)重計算方法大都是對tf*idf的修改,即tf和idf的計算均以XML元素為單位計算的。
2.4.2.2 基于域加權(quán)詞頻法的概率檢索
對于XML文檔來說,不同的結(jié)構(gòu)往往蘊涵了不同的語義信息,即使是XML文檔級的檢索,也與普通文本信息檢索有所不同。XML文檔通常包含一些子元素,考慮文檔的內(nèi)部結(jié)構(gòu)對提高檢索性能是有幫助的。
2.4.2.3 基于XML查詢語言的方法
這些查詢語言實現(xiàn)的是精確查詢,不支持檢索結(jié)果排序、傳統(tǒng)的關(guān)鍵詞查詢以及異構(gòu)數(shù)據(jù)源的查詢,并不適合于在Web這樣的開放式環(huán)境下或?qū)嵲诖笮推髽I(yè)的intranets環(huán)境下檢索信息。為此,一些研究致力于對XML查詢語言進(jìn)行擴(kuò)展,使其適用于上述環(huán)境下的XML檢索。
2.4.3 返回結(jié)果的確定
XML檢索系統(tǒng)是以XML元素為粒度來返回檢索結(jié)果的,只返回用戶感興趣且符合檢索條件的元素集,XML檢索不但可以使得檢索結(jié)果更為準(zhǔn)確,也使得傳輸?shù)臄?shù)據(jù)量大大減小。節(jié)點的權(quán)重與節(jié)點文本大小成一定的反比關(guān)系。
2.4.4 XML信息檢索研究存在的問題
1)不支持檢索結(jié)果排序、傳統(tǒng)的關(guān)鍵詞查詢以及異構(gòu)數(shù)據(jù)源的查詢。 2)沒有從根本上考慮XML文檔結(jié)構(gòu)信息 3)在輸入查詢信息時需要按照查詢語言的語法輸入XML文檔結(jié)構(gòu)信息和關(guān)鍵詞 4)不同的標(biāo)簽可能表示相似的概念
新聞熱點
疑難解答