热门问题
时间线
聊天
视角

相關反饋

来自维基百科,自由的百科全书

Remove ads

相關反饋,起源於信息檢索系統領域,其思路是將給定查詢最先返回的結果,和這些結果是否與新查詢是否相關的信息利用起來。區別三種類型的反饋將很有意義:顯式反饋、隱式反饋和盲式或偽反饋。

顯式反饋

顯式反饋是從相關性評估者那裡獲取的,這裡的相關性表示檢索文檔與查詢的相關程度。只有當評估者(或系統的其他用戶)清楚所提供的反饋是被解釋為相關性判斷依據時,這種類型的反饋才能稱為是顯式的。

用戶可能將相關性用二元分級的相關機制來顯式表示。二元相關反饋表示文檔相對於給定的查詢要麼相關,要麼不相關。而分級的相關反饋則使用數字、字母或其它描述(如「不相關」,「一點相關」,「相關」,或「很相關」)來表示文檔與查詢的相關程度。當評估者將結果中的文檔按照相關性排序(通常時降序)時,分級的相關反饋也需要使用這種由評估者創建的文檔序號形式,Google在搜索網站中實現的SearchWiki就是這樣一個例子,

相關反饋信息需要結合原始查詢才能提高檢索性能,如著名的Rocchio算法英語Rocchio Classification#Algorithm

性能度量在2005年左右變得流行起來,其用來衡量排名算法的有用性,其中基於顯式相關反饋的性能度量是NDCG英語NDCG,其它的度量包括k上查准率英語Precision (information retrieval)平均查准率英語Mean average precision#Mean average precision

Remove ads

隱式反饋

隱式反饋是從用戶行為中推斷出來的,這些行為比如觀察用戶選擇查看或不查看哪些文檔,查看文檔所持續的時間,或者瀏覽頁面、捲動滾動條操作[1]頁面存檔備份,存於網際網路檔案館)。

隱式反饋與顯式反饋最主要的區別包括[2]

  1. 用戶並不需要為了考慮IR系統需要而去評估相關性,而只關注自己的需要能否滿足即可;
  2. 並不需要告知用戶他們的行為會被用於相關反饋。

其中的一個例子是Surf Canyon英語Surf Canyon瀏覽器擴展,基於用戶交互(點擊圖標)和搜索結果連結頁面上的時間花費,來提前從結果集中的後續頁面中搜索結果。

盲式反饋

偽相關反饋,也稱之為盲式相關反饋,提供的是一種自動局部分析方法,它可以自動化相關反饋的手動操作部分,因此用戶可不用參與額外的交互也可以獲得更好的檢索性能。這種方法首先通過普通檢索從最相關的文檔中尋找到一個初始結果,然後假定其中的前"k"排名文檔是相關的,最後在這個假設條件下像前面一樣進行相關反饋。過程步驟如下:

  1. 把初始查詢返回的結果當成相關結果(在大多數實驗中僅前k個,k位於10和50之間的數);
  2. 使用如TF-IDF權重的方法從這些文檔中選擇前20-30(象徵性的數字)個詞語;
  3. 執行查詢擴展,將這些詞語加入到查詢中,然後再去匹配查詢所返回的文檔,最終返回最相關的文檔。

一些實驗,如發表在(Buckley et al.1995)的Cornell SMART系統,在TREC 4實驗環境中使用偽相關反饋提升了其檢索系統的性能。

這種自動化技術在大多數情況下都工作正常,有證據表明甚至好於全局分析。[1] 通過查詢擴展,一些在初始查詢中錯過的文檔能被重新獲得,從而提高了整體性能。很顯然,這種方法的效果非常依賴於所選擇的擴展詞語的質量,目前已經發現它在TREC即席任務中提高了性能[來源請求]。但是,它並沒有避免自動處理過程的危險,例如,如果需要查詢的是銅礦,而且位於前面的一些文檔都是關於智利的銅礦,那麼在查詢方向上會逐漸偏向於那些與智利有關的文檔。[2] 此外,如果加入原始查詢的詞語與查詢主題並不相關,檢索質量有可能會下降,尤其是在Web搜索中,Web文檔經常會覆蓋多個不同的主題。

使用相關性信息

利用相關性信息,可使用相關文檔的內容來調整原始查詢中詞語的權重,也可使用這些內容將詞語加入到查詢中,相關性反饋經常使用Rocchio算法英語Rocchio Classification#Algorithm實現。

更多閱讀

參考文獻

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads