Автоматическое получение размеченного корпуса

Если методы обучения без учителя в проблеме разрешения многозначности полагаются на неаннотированный (не размеченный) корпус, то обучение с учителем коренным образом зависят от размеченного корпуса тестов. Проблема получения достаточного количества знаний является одной из самых главных преград в реализации высокоэффективных алгоритмов обучения. Однако, если алгоритм реализуется не такими крупными с точки зрения ресурсов мероприятиями, как Senseval, а более мелкая, то в подобных случаях получение качественно размеченного корпуса не представляется возможным из-за огромных трудозатрат, которые необходимы для осуществления этого процесса вручную. Поэтому перед исследователями, нуждающимися в подобных корпусах, встала задача получения размеченного корпуса автоматически.

Выходом является автоматическое нахождение таких контекстов, в которых искомое многозначное слово со 100-процентной вероятностью принимает необходимое нам значение. И такие методы были придуманы; всего существует несколько способов, в корне отличающихся друг от друга.

Remove ads

Существующие решения

Суммиров вкратце

Перспектива

Одним из решений является алгоритм, разработанный Радой Майхелсиа^[1] и основанный на получении контекстов из выдачи поисковых движков (типа Google или Yandex) с помощью знаний, имеющихся в тезаурусе. Весь процесс получения корпуса состоит из трёх этапов: препроцессинг, поиск и постпроцессинг.

Препроцессинг. Для каждого слова w и его значения #i берутся их однозначные синонимы, а также слова, полученные после обработки глосса (словарного толкования, грамматических пояснений, примеров использования слова в различных контекстах и т. п.)
Поиск. Затем, на стадии поиска формируются поисковые запросы, помогающие найти именно те контексты, в которых данное слово присутствует в нужном нам значении.
Постпроцессинг. После этого, полученные контексты обрабатываются, фильтруются плохие и т. д.

Эффективность метода позволяет получать большое количество контекстов, примерно 91 % из которых являются правильными, что является довольно высоким результатом, достаточным для обучения машины. Также, у этого метода существует последователи и предшественники (например, алгоритм Leacock и Chodorow), однако все они так и не сравнились с ним по эффективности.

Второй метод, придуманный Яровски^[2] и часто называемый bootstrapping, предлагает, начиная с небольшого количества вручную определённых примеров (так называемым seed examples), автоматически и итерационно расширять классы, разделяя оставшиеся контексты в неразмеченном тексте на классы, получая, таким образом, обучающую выборку. При этом за аксиому берутся такие вещи, как «one sense per collocation» и «one sense per discourse». Однако, этот способ также менее точен, чем способ Mihalcea, так как в данном случае не получаются однозначные контексты.

Также, существует ещё 3 метода^[3], практически неприменимые к русскому языку:

каталоги веб-страниц (такие как Open Directory Project);
выравненные билингвальные тексты (однако, несмотря на быстрый рост подобных материалов, их количество для русского языка ещё недостаточно велико);
коллаборативная работа в стиле Вики (Open Mind Word Expert project): принцип заключается в том, что лёгкие случаи разрешения многозначности решаются машиной, трудные — показываются волонтёрам в интернете; этот метод, к сожалению, не показал достаточно высоких результатов из-за не профессионализма добровольцев (62.8 % согласия между людьми по сравнению 85,5 % на Senseval).

Remove ads

Итог

Суммиров вкратце

Перспектива

Результаты

Автоматическое получение примеров для тренировки классификатора (обучение с учителем), как оказалось, является наилучшим подходом майнинга интернета для разрешения лексической многозначности. Стоит привести некоторые обнадёживающие результаты:

В некоторых экспериментах, качества данных из интернета практически сравнялось с качеством корпуса, сделанным человеком: сочетание получения с помощью однозначных синонимов и бутстреппинга из SemCor’овских примеров^[4] и примеры, полученные из ODP^[5]. В первом, однако, примеры из SemCor’a необходимы и существуют только для английского языка, и тестирование проводилось со слишком небольшим количеством существительных, а во втором покрытие эксперимента слишком мало и неизвестно, насколько сильно ухудшается качество полученного корпуса при его увеличении.
Также, было показано^[6], что почти любая техника обучения с учителем, тренированная на автоматически полученных из интернета корпусах, превосходит все техники обучения без учителя, участвовавшие в Senseval-2.
Примеры из интернета принесли огромную пользу в плане эффективности лучшим английским all-words алгоритмам на Senseval-2^[7].

Проблемы

Однако, также существуют определённые проблемы и трудности, напрямую связанные с получением подобного корпуса:

Хорошее качество полученных примеров (то есть, правильная принадлежность примеров к классам значений) не обязательно обеспечивает высокую точность классификатора^[8].
Наиболее объективные эксперименты по оценке качества полученных примеров показали^[9], что обучение на этих примеров существенно повышает уровень точности разрешения многозначности, однако, тем не менее, результаты далеки от идеальных: они не то, что хуже полученных вручную, — она даже не превышают качество полученное с помощью most-frequent-sense baseline.
Результаты не всегда удаётся повторить: те же самые или похожие методы могут привести к различным результатам в разных экспериментах. В качестве сравнения можно сравнить эксперименты: Mihalcea (2002^[10]) с Agirre и Martínez (2004^[9]), или Agirre и Martínez (2000^[8]) с Mihalcea и Moldovan (1999^[11]). Результаты, полученные с помощью интернета, показали, что данные очень чувствительны даже к небольшим изменениям в обучающем алгоритме, даже к дате получения корпуса (выдача поисковых машин постоянно меняется), и к незаметным эвристическим проблемам (например, различия в фильтрах по отбрасыванию части полученных примеров).
На результаты сильно влияет такое явление как «перекос» (то есть, на соотношение частотностей примеров одних значений слова по сравнению с другими^[9]). Так до конца неясно, является ли это проблемой только информации из Интернета или это проблема, присущая обучению с учителем, или же это проблема того, каким образом методы оцениваются (в самом деле, сравнительно небольшое количество данных Senseval вполне возможно является не такой уж и репрезентативной вещью по сравнению со всем интернетом в качестве корпуса).
В любом случае, данные из интернета обладают перекосом, потому что запросы к поисковым системам непосредственно ограничивают множество полученных контекстов. Существуют подходы для смягчения этого эффекта, такие как: использование нескольких seeds или запросов для каждого из значений слова^[10] или присваивание значениям соответствующих категорий из каталогов веб-сайтов^[5]; однако эта проблема ещё далека от полного разрешения.
У любого полученного корпуса контекстов не всегда ясен вопрос с лицензией по его использованию (правовая составляющая неясна).

Будущее области

Кроме вышеперечисленных техник получения корпуса из веба, также были проведены некоторые другие эксперименты, использующие интернет:

Интернет, как социальная сеть, несколько раз был успешно использован для коллаборативной аннотации анонимными пользователями (проект OMWE, Open Mind Word Expert project)^[12]: он был применён уже три раза для задач Senseval-3 (для английского, румынского языков и многоязыковой задачи).
Интернет также использовался для обогащения значений WordNet'a знаниями о теме корпуса (domain-specific information): так называемые topic signatures^[13] and Web directories^[5], которые успешно применялись для разрешения многозначности.
Также с недавних пор проводятся исследования по изучению возможности использования Википедии для разрешения многозначностей, перечисленных на страницах значений многозначных слов^[14]^[15].

Однако возможности, открывающиеся и предоставляемые интернетом, ещё не до конца исследованы. К примеру, мало известно как использовать лексическую информацию, полученную с помощью knowledge-based систем разрешения многозначности; и также непонятно каким образом получать из интернета параллельные корпусы, хотя и эффективные алгоритмы для обработки таких корпусов уже существуют. Следовательно, следует ждать в этой области ещё многих интересных результатов в ближайшем будущем.

Remove ads

Примечания

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads