热门问题
时间线
聊天
视角

停用词

来自维基百科,自由的百科全书

Remove ads

信息检索中,为节省存储空间和提高搜索效率,在自然语言处理数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为Stop Words停用词)。

对于一个给定的目的,任何一类的词语都可以被选作停用词。通常意义上,停用词大致分为两类。一类是人类语言中包含的功能词,这些功能词极其普遍,与其他词相比,功能词没有什么实际含义,比如“the、“is”、“at”、“which”、“on”等。但是对于搜索引擎来说,当所要搜索的短语包含功能词,特别是像“The Who”、“The The”或“Take That”等复合名词时,停用词的使用就会导致问题。另一类词包括词汇词,比如'want'等,这些词应用十分广泛,但是对这样的词搜索引擎无法保证能够给出真正相关的搜索结果,难以帮助缩小搜索范围,同时还会降低搜索的效率,所以通常会把这些词从问题中移去,从而提高搜索性能。

作为信息检索的先驱者之一,Hans Peter Luhn英语Hans Peter Luhn创造了这个短语,并在他的研究中应用这个概念,推动了这个概念的使用[1]

Remove ads

参见

参考资料

外部链接

引用

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads