热门问题

时间线

聊天

视角

全文檢索

来自维基百科，自由的百科全书

Remove ads

在文獻檢索中，全文檢索是從全文資料庫中查詢特定文本的技術。全文檢索與基於後設資料的查詢方法不同，前者會搜尋文本中的所有文字，而後者只根據部分欄位進行檢索，如標題或摘要等。

本條目存在以下問題，請協助改善本條目或在討論頁針對議題發表看法。

此條目可參照英語維基百科相應條目來擴充。 (2019年5月15日)

此條目的語調或風格或許不適合百科全書。 (2019年5月15日)

此條目應避免有陳列雜項、瑣碎資料的部分。 (2019年5月15日)

此條目沒有列出任何參考或來源。 (2019年5月15日)

執行全文檢索任務的程式一般稱作搜尋引擎，其功能是根據使用者輸入的查詢文字從資料庫中找到符合的內容。

索引建立

當文本數量較少時，可以直接一一比對資料庫中的文本。然而，當需要處理大量文本或查詢時，全文檢索通常會被分為兩個階段：索引建立（Indexing）與搜尋（Searching）。在索引建立階段，索引器會掃描資料庫中的文本並建立索引清單。在搜尋階段，系統只會檢查索引而非原始文本。

索引器會為文本中找到的詞語建立條目，有時也會一併紀錄該詞語在文本中的相對出現位置。一般而言，索引器會忽略過於常見或缺乏有用資訊的停用詞。有些索引器會使用詞幹提取將同一詞語的不同變體歸一化為同一型式。

全文索引的相關議題

語根處理 (stemming)
符素解析器 (token parser) 1-gram, 2-gram , n-gram
斷詞/分詞 word segmentation
反向索引 inverted index

演算法、搜尋策略之模型

布林式 boolean
統計模型 Probabilistic model
向量空間模型 vector base model
隱性語義模型 Latent semantic model

評量之準則

查全率(recall rate)，查準率(precision)

開放原始碼之全文檢索系統

Apache Solr
BaseX
Clusterpoint Server (freeware licence for a single-server)
DataparkSearch
Ferret
Ht-//Dig
Hyper Estraier
KinoSearch
Lemur/Indri
Lucene
mnoGoSearch
Sphinx
Swish-e
Xapian
ElasticSearch

和中文有關的議題

斷詞
語法解析
古籍議題
多語言混合

優化

剔除字(Stopwords)
詞性標註
權威檔(authority file)
知識體系，本體論(ontology)
超連結分析(page rank)技術

歷史及未來之趨勢

自由語句搜尋

參考

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads

Remove ads