热门问题
时间线
聊天
视角
停用词
来自维基百科,自由的百科全书
Remove ads
在信息检索中,为节省存储空间和提高搜索效率,在自然语言处理数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为Stop Words(停用词)。
![]() | 此条目可能包含原创研究。 (2012年4月6日) |
对于一个给定的目的,任何一类的词语都可以被选作停用词。通常意义上,停用词大致分为两类。一类是人类语言中包含的功能词,这些功能词极其普遍,与其他词相比,功能词没有什么实际含义,比如“the、“is”、“at”、“which”、“on”等。但是对于搜索引擎来说,当所要搜索的短语包含功能词,特别是像“The Who”、“The The”或“Take That”等复合名词时,停用词的使用就会导致问题。另一类词包括词汇词,比如'want'等,这些词应用十分广泛,但是对这样的词搜索引擎无法保证能够给出真正相关的搜索结果,难以帮助缩小搜索范围,同时还会降低搜索的效率,所以通常会把这些词从问题中移去,从而提高搜索性能。
作为信息检索的先驱者之一,Hans Peter Luhn创造了这个短语,并在他的研究中应用这个概念,推动了这个概念的使用[1]。
Remove ads
参见
参考资料
外部链接
引用
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads