相关反馈 - Wikiwand

顯式反饋

顯式反饋是從相關性評估者那裡獲取的，這裡的相關性表示檢索文檔與查詢的相關程度。只有當評估者（或系統的其他用戶）清楚所提供的反饋是被解釋為相關性判斷依據時，這種類型的反饋才能稱為是顯式的。

用戶可能將相關性用二元或分級的相關機制來顯式表示。二元相關反饋表示文檔相對於給定的查詢要麼相關，要麼不相關。而分級的相關反饋則使用數字、字母或其它描述（如「不相關」，「一點相關」，「相關」，或「很相關」）來表示文檔與查詢的相關程度。當評估者將結果中的文檔按照相關性排序（通常時降序）時，分級的相關反饋也需要使用這種由評估者創建的文檔序號形式，Google在搜索網站中實現的SearchWiki就是這樣一個例子，

相關反饋信息需要結合原始查詢才能提高檢索性能，如著名的Rocchio算法（英語：Rocchio Classification#Algorithm）。

性能度量在2005年左右變得流行起來，其用來衡量排名算法的有用性，其中基於顯式相關反饋的性能度量是NDCG（英語：NDCG），其它的度量包括k上查准率（英語：Precision (information retrieval)）與平均查准率（英語：Mean average precision#Mean average precision）。

Remove ads

隱式反饋

隱式反饋是從用戶行為中推斷出來的，這些行為比如觀察用戶選擇查看或不查看哪些文檔，查看文檔所持續的時間，或者瀏覽頁面、捲動滾動條操作[1] （頁面存檔備份，存於網際網路檔案館）。

隱式反饋與顯式反饋最主要的區別包括[2]：

用戶並不需要為了考慮IR系統需要而去評估相關性，而只關注自己的需要能否滿足即可；
並不需要告知用戶他們的行為會被用於相關反饋。

其中的一個例子是Surf Canyon（英語：Surf Canyon）瀏覽器擴展，基於用戶交互（點擊圖標）和搜索結果連結頁面上的時間花費，來提前從結果集中的後續頁面中搜索結果。

盲式反饋

偽相關反饋，也稱之為盲式相關反饋，提供的是一種自動局部分析方法，它可以自動化相關反饋的手動操作部分，因此用戶可不用參與額外的交互也可以獲得更好的檢索性能。這種方法首先通過普通檢索從最相關的文檔中尋找到一個初始結果，然後假定其中的前"k"排名文檔是相關的，最後在這個假設條件下像前面一樣進行相關反饋。過程步驟如下：

把初始查詢返回的結果當成相關結果（在大多數實驗中僅前k個，k位於10和50之間的數）；
使用如TF-IDF權重的方法從這些文檔中選擇前20-30（象徵性的數字）個詞語；
執行查詢擴展，將這些詞語加入到查詢中，然後再去匹配查詢所返回的文檔，最終返回最相關的文檔。

一些實驗，如發表在(Buckley et al.1995)的Cornell SMART系統，在TREC 4實驗環境中使用偽相關反饋提升了其檢索系統的性能。

這種自動化技術在大多數情況下都工作正常，有證據表明甚至好於全局分析。^[1] 通過查詢擴展，一些在初始查詢中錯過的文檔能被重新獲得，從而提高了整體性能。很顯然，這種方法的效果非常依賴於所選擇的擴展詞語的質量，目前已經發現它在TREC即席任務中提高了性能^{[來源請求]}。但是，它並沒有避免自動處理過程的危險，例如，如果需要查詢的是銅礦，而且位於前面的一些文檔都是關於智利的銅礦，那麼在查詢方向上會逐漸偏向於那些與智利有關的文檔。^[2] 此外，如果加入原始查詢的詞語與查詢主題並不相關，檢索質量有可能會下降，尤其是在Web搜索中，Web文檔經常會覆蓋多個不同的主題。

更多閱讀

相關性反饋講義稿 - Jimmy Lin的講義稿，改編自Doug Oard的講義稿
[3] （頁面存檔備份，存於網際網路檔案館） - 現代信息檢索中的第10章
Stefan Büttcher, Charles L. A. Clarke, and Gordon V. Cormack. 信息檢索：實現和評價搜尋引擎（頁面存檔備份，存於網際網路檔案館）. MIT Press, Cambridge, Mass., 2010.

相關反饋

顯式反饋

隱式反饋

盲式反饋

使用相關性信息

更多閱讀

參考文獻

Wikiwand - on