热门问题
时间线
聊天
视角
全文检索
来自维基百科,自由的百科全书
Remove ads
在文献检索中,全文检索是从全文资料库中查询特定文本的技术。全文检索与基于后设资料的查询方法不同,前者会搜寻文本中的所有文字,而后者只根据部分栏位进行检索,如标题或摘要等。
执行全文检索任务的程式一般称作搜寻引擎,其功能是根据使用者输入的查询文字从资料库中找到符合的内容。
索引建立
当文本数量较少时,可以直接一一比对资料库中的文本。然而,当需要处理大量文本或查询时,全文检索通常会被分为两个阶段:索引建立(Indexing)与搜寻(Searching)。在索引建立阶段,索引器会扫描资料库中的文本并建立索引清单。在搜寻阶段,系统只会检查索引而非原始文本。
索引器会为文本中找到的词语建立条目,有时也会一并纪录该词语在文本中的相对出现位置。一般而言,索引器会忽略过于常见或缺乏有用资讯的停用词。有些索引器会使用词干提取将同一词语的不同变体归一化为同一型式。
全文索引的相关议题
- 语根处理 (stemming)
- 符素解析器 (token parser) 1-gram, 2-gram , n-gram
- 断词/分词 word segmentation
- 倒排索引 inverted index
演算法、搜寻策略之模型
- 布林式 boolean
- 统计模型 Probabilistic model
- 向量空间模型 vector base model
- 隐性语义模型 Latent semantic model
评量之准则
- 查全率(recall rate),查准率(precision)
开放原始码之全文检索系统
- Apache Solr
- BaseX
- Clusterpoint Server (freeware licence for a single-server)
- DataparkSearch
- Ferret
- Ht-//Dig
- Hyper Estraier
- KinoSearch
- Lemur/Indri
- Lucene
- mnoGoSearch
- Sphinx
- Swish-e
- Xapian
- ElasticSearch
和中文有关的议题
- 断词
- 语法解析
- 古籍议题
- 多语言混合
优化
- 剔除字(Stopwords)
- 词性标注
- 规范文件(authority file)
- 知识体系,本体论(ontology)
- 超连结分析(page rank)技术
历史及未来之趋势
- 自由语句搜寻
参考
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads