热门问题
时间线
聊天
视角

全文檢索

来自维基百科,自由的百科全书

Remove ads

文獻檢索中,全文檢索是從全文資料庫中查詢特定文字的技術。全文檢索與基於後設資料的查詢方法不同,前者會搜尋文字中的所有文字,而後者只根據部分欄位進行檢索,如標題或摘要等。

執行全文檢索任務的程式一般稱作搜尋引擎,其功能是根據用戶輸入的查詢文字從資料庫中找到符合的內容。

索引建立

當文字數量較少時,可以直接一一比對資料庫中的文字。然而,當需要處理大量文字或查詢時,全文檢索通常會被分為兩個階段:索引建立(Indexing)搜尋(Searching)。在索引建立階段,索引器會掃描資料庫中的文字並建立索引清單。在搜尋階段,系統只會檢查索引而非原始文字。

索引器會為文字中找到的詞語建立條目,有時也會一併紀錄該詞語在文字中的相對出現位置。一般而言,索引器會忽略過於常見或缺乏有用資訊的停用詞。有些索引器會使用詞幹提取將同一詞語的不同變體歸一化為同一型式。

全文索引的相關議題

  • 語根處理 (stemming)
  • 符素解析器 (token parser) 1-gram, 2-gram , n-gram
  • 斷詞/分詞 word segmentation
  • 反向索引 inverted index

演算法、搜尋策略之模型

  • 布林式 boolean
  • 統計模型 Probabilistic model
  • 向量空間模型 vector base model
  • 隱性語義模型 Latent semantic model

評量之準則

  • 查全率(recall rate),查準率(precision)

開放原始碼之全文檢索系統

和中文有關的議題

  • 斷詞
  • 語法解析
  • 古籍議題
  • 多語言混合

優化

  • 剔除字(Stopwords)
  • 詞性標註
  • 權威檔(authority file)
  • 知識體系,本體論(ontology)
  • 超連結分析(page rank)技術

歷史及未來之趨勢

  • 自由陳述式搜尋

參考

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads