Розрізнення меж речення

Розрізнення меж речення, також відоме, як розбиття речення, виявлення меж речення і сегментація речення – задача в галузі обробки природної мови, яка визначає місце початку й закінчення речення. Інструменти обробки тексту часто вимагають, щоб вхідні дані були розділені на самостійні фрагменти; однак ідентифікація їхніх меж може бути складною через потенційну неоднозначність розділових знаків. На письмі крапка може позначати як кінець твердження, так і абревіатуру, десятковий роздільник, трикрапку чи адресу електронної пошти. Близько 47 % крапок у корпусі The Wall Street Journal позначають акроніми.^[1] Знаки питання та оклику так само можуть бути невизначеними через використання в смайликах, комп'ютерному коді й сленгу.

Деякі мови, зокрема японська та китайська, мають чіткі маркери кінців речень.

[1]

Розрізнення меж речення

Стратегії

Програмне забезпечення

Див. також

Примітки

Посилання

Wikiwand - on