文本分割
将整段中文文本切分为有意义的词语的技术 / 维基百科,自由的 encyclopedia
文本分割(Text segmentation)将书面文本分割成有意义单位的过程,如单词、句子或主题。这个术语既适用于人类阅读文本时的心理过程,也适用于在电脑中实现的人工过程,后者属于自然语言处理的领域。一些书面语言有明确的单词分界标记,例如英语的词之间有空格标识,阿拉伯语有独特的首、中、末字母形状,但这种标记不是所有书面语言都有。
此条目需要精通或熟悉相关主题的编者参与及协助编辑。 (2020年10月7日) |