跳至內容

英文维基 | 中文维基 | 日文维基 | 草榴社区

相關反饋

維基百科,自由的百科全書

相關反饋,起源於信息檢索系統領域,其思路是將給定查詢最先返回的結果,和這些結果是否與新查詢是否相關的信息利用起來。區別三種類型的反饋將很有意義:顯式反饋、隱式反饋和盲式或偽反饋。

顯式反饋

[編輯]

顯式反饋是從相關性評估者那裡獲取的,這裡的相關性表示檢索文檔與查詢的相關程度。只有當評估者(或系統的其他用戶)清楚所提供的反饋是被解釋為相關性判斷依據時,這種類型的反饋才能稱為是顯式的。

用戶可能將相關性用二元分級的相關機制來顯式表示。二元相關反饋表示文檔相對於給定的查詢要麼相關,要麼不相關。而分級的相關反饋則使用數字、字母或其它描述(如「不相關」,「一點相關」,「相關」,或「很相關」)來表示文檔與查詢的相關程度。當評估者將結果中的文檔按照相關性排序(通常時降序)時,分級的相關反饋也需要使用這種由評估者創建的文檔序號形式,Google在搜索網站中實現的SearchWiki就是這樣一個例子,

相關反饋信息需要結合原始查詢才能提高檢索性能,如著名的Rocchio算法英語Rocchio Classification#Algorithm

性能度量在2005年左右變得流行起來,其用來衡量排名算法的有用性,其中基於顯式相關反饋的性能度量是NDCG英語NDCG,其它的度量包括k上查准率英語Precision (information retrieval)平均查准率英語Mean average precision#Mean average precision

隱式反饋

[編輯]

隱式反饋是從用戶行為中推斷出來的,這些行為比如觀察用戶選擇查看或不查看哪些文檔,查看文檔所持續的時間,或者瀏覽頁面、捲動滾動條操作[1]頁面存檔備份,存於網際網路檔案館)。

隱式反饋與顯式反饋最主要的區別包括[2]

  1. 用戶並不需要為了考慮IR系統需要而去評估相關性,而只關注自己的需要能否滿足即可;
  2. 並不需要告知用戶他們的行為會被用於相關反饋。

其中的一個例子是Surf Canyon英語Surf Canyon瀏覽器擴展,基於用戶交互(點擊圖標)和搜索結果鏈接頁面上的時間花費,來提前從結果集中的後續頁面中搜索結果。

盲式反饋

[編輯]

偽相關反饋,也稱之為盲式相關反饋,提供的是一種自動局部分析方法,它可以自動化相關反饋的手動操作部分,因此用戶可不用參與額外的交互也可以獲得更好的檢索性能。這種方法首先通過普通檢索從最相關的文檔中尋找到一個初始結果,然後假定其中的前"k"排名文檔是相關的,最後在這個假設條件下像前面一樣進行相關反饋。過程步驟如下:

  1. 把初始查詢返回的結果當成相關結果(在大多數實驗中僅前k個,k位於10和50之間的數);
  2. 使用如TF-IDF權重的方法從這些文檔中選擇前20-30(象徵性的數字)個詞語;
  3. 執行查詢擴展,將這些詞語加入到查詢中,然後再去匹配查詢所返回的文檔,最終返回最相關的文檔。

一些實驗,如發表在(Buckley et al.1995)的Cornell SMART系統,在TREC 4實驗環境中使用偽相關反饋提升了其檢索系統的性能。

這種自動化技術在大多數情況下都工作正常,有證據表明甚至好於全局分析。[1] 通過查詢擴展,一些在初始查詢中錯過的文檔能被重新獲得,從而提高了整體性能。很顯然,這種方法的效果非常依賴於所選擇的擴展詞語的質量,目前已經發現它在TREC即席任務中提高了性能[來源請求]。但是,它並沒有避免自動處理過程的危險,例如,如果需要查詢的是銅礦,而且位於前面的一些文檔都是關於智利的銅礦,那麼在查詢方向上會逐漸偏向於那些與智利有關的文檔。[2] 此外,如果加入原始查詢的詞語與查詢主題並不相關,檢索質量有可能會下降,尤其是在Web搜索中,Web文檔經常會覆蓋多個不同的主題。

使用相關性信息

[編輯]

利用相關性信息,可使用相關文檔的內容來調整原始查詢中詞語的權重,也可使用這些內容將詞語加入到查詢中,相關性反饋經常使用Rocchio算法英語Rocchio Classification#Algorithm實現。

更多閱讀

[編輯]

參考文獻

[編輯]
  1. ^ Jinxi Xu and W. Bruce Croft, Query expansion using local and global document analysis頁面存檔備份,存於網際網路檔案館), in Proceedings of the 19th annual international ACM SIGIR conference on Research and development in information retrieval (SIGIR), 1996.
  2. ^ Yuanhua Lv and ChengXiang Zhai, Positional relevance model for pseudo-relevance feedback, in Proceedings of the 33rd international ACM SIGIR conference on Research and development in information retrieval (SIGIR), 2010.