資訊檢索中,為節省儲存空間和提高搜尋效率,在自然語言處理數據(或文字)之前或之後會自動過濾掉某些字或詞,這些字或詞即被稱為Stop Words(停用詞)。不要把停用詞與安全口令混淆。 這些停用詞都是人工輸入、非自動化生成的,生成後的停用詞會形成一個停用詞表。但是,並沒有一個明確的停用詞表能夠適用於所有的工具。甚至有一些工具是明確地避免使用停用詞來支援短語搜尋的。

對於一個給定的目的,任何一類的詞語都可以被選作停用詞。通常意義上,停用詞大致分為兩類。一類是人類語言中包含的功能詞,這些功能詞極其普遍,與其他詞相比,功能詞沒有什麼實際含義,比如'the'、'is'、'at'、'which'、'on'等。但是對於搜尋引擎來說,當所要搜尋的短語包含功能詞,特別是像The WhoThe TheTake That等複合名詞時,停用詞的使用就會導致問題。另一類詞包括詞彙詞,比如'want'等,這些詞應用十分廣泛,但是對這樣的詞搜尋引擎無法保證能夠給出真正相關的搜尋結果,難以幫助縮小搜尋範圍,同時還會降低搜尋的效率,所以通常會把這些詞從問題中移去,從而提高搜尋效能。

作為資訊檢索的先驅者之一,Hans Peter Luhn英語Hans Peter Luhn創造了這個短語,並在他的研究中應用這個概念,推動了這個概念的使用[1]

參見

參考資料

外部連結

參照

Wikiwand in your browser!

Seamless Wikipedia browsing. On steroids.

Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.

Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.