文字分割(Text segmentation)將書面文字分割成有意義單位的過程,如單詞、句子或主題。這個術語既適用於人類閱讀文字時的心理過程,也適用於在電腦中實現的人工過程,後者屬於自然語言處理的領域。一些書面語言有明確的單詞分界標記,例如英語的詞之間有空格標識,阿拉伯語有獨特的首、中、末字母形狀,但這種標記不是所有書面語言都有。

分割問題

分詞

分詞(Word segmentation)是將一串書面語言分成其組成詞的問題。中文分詞指的是使用電腦自動對中文文字進行詞語的切分,即像英文那樣使得中文句子中的詞之間有空格以標識。中文分詞被認為是中文自然語言處理中的一個最基本的環節。

Unicode聯盟已經發表了一個關於文字分割的標準附件[1]

意圖分割

意圖分割(Intent segmentation)是將書面語言分割為關鍵詞(2個或2個以上的詞組)的問題。

參考文獻

外部連結

Wikiwand in your browser!

Seamless Wikipedia browsing. On steroids.

Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.

Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.