热门问题

时间线

聊天

视角

全文检索

来自维基百科，自由的百科全书

Remove ads

在文献检索中，全文检索是从全文数据库中查询特定文本的技术。全文检索与基于后设资料的查询方法不同，前者会搜索文本中的所有文字，而后者只根据部分字段进行检索，如标题或摘要等。

本条目存在以下问题，请协助改善本条目或在讨论页针对议题发表看法。

此条目可参照英语维基百科相应条目来扩充。 (2019年5月15日)

此条目的语调或风格或许不适合百科全书。 (2019年5月15日)

此条目应避免有陈列杂项、琐碎资料的部分。 (2019年5月15日)

此条目没有列出任何参考或来源。 (2019年5月15日)

执行全文检索任务的程序一般称作搜索引擎，其功能是根据用户输入的查询文字从数据库中找到符合的内容。

索引建立

当文本数量较少时，可以直接一一比对数据库中的文本。然而，当需要处理大量文本或查询时，全文检索通常会被分为两个阶段：索引建立（Indexing）与搜索（Searching）。在索引建立阶段，索引器会扫描数据库中的文本并建立索引清单。在搜索阶段，系统只会检查索引而非原始文本。

索引器会为文本中找到的词语建立条目，有时也会一并纪录该词语在文本中的相对出现位置。一般而言，索引器会忽略过于常见或缺乏有用资讯的停用词。有些索引器会使用词干提取将同一词语的不同变体归一化为同一型式。

全文索引的相关议题

语根处理 (stemming)
符素解析器 (token parser) 1-gram, 2-gram , n-gram
断词/分词 word segmentation
倒排索引 inverted index

算法、搜索策略之模型

布尔式 boolean
统计模型 Probabilistic model
向量空间模型 vector base model
隐性语义模型 Latent semantic model

评量之准则

查全率(recall rate)，查准率(precision)

开放原始码之全文检索系统

Apache Solr
BaseX
Clusterpoint Server (freeware licence for a single-server)
DataparkSearch
Ferret
Ht-//Dig
Hyper Estraier
KinoSearch
Lemur/Indri
Lucene
mnoGoSearch
Sphinx
Swish-e
Xapian
ElasticSearch

和中文有关的议题

断词
语法解析
古籍议题
多语言混合

优化

剔除字(Stopwords)
词性标注
规范文件(authority file)
知识体系，本体论(ontology)
超链接分析(page rank)技术

历史及未来之趋势

自由语句搜索

参考

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads

Remove ads