Лучшие вопросы
Таймлайн
Чат
Перспективы
Автоматическое получение размеченного корпуса
Из Википедии, свободной энциклопедии
Remove ads
Если методы обучения без учителя в проблеме разрешения многозначности полагаются на неаннотированный (не размеченный) корпус, то обучение с учителем коренным образом зависят от размеченного корпуса тестов. Проблема получения достаточного количества знаний является одной из самых главных преград в реализации высокоэффективных алгоритмов обучения. Однако, если алгоритм реализуется не такими крупными с точки зрения ресурсов мероприятиями, как Senseval, а более мелкая, то в подобных случаях получение качественно размеченного корпуса не представляется возможным из-за огромных трудозатрат, которые необходимы для осуществления этого процесса вручную. Поэтому перед исследователями, нуждающимися в подобных корпусах, встала задача получения размеченного корпуса автоматически.
Выходом является автоматическое нахождение таких контекстов, в которых искомое многозначное слово со 100-процентной вероятностью принимает необходимое нам значение. И такие методы были придуманы; всего существует несколько способов, в корне отличающихся друг от друга.
Remove ads
Существующие решения
Суммиров вкратце
Перспектива
Одним из решений является алгоритм, разработанный Радой Майхелсиа[1] и основанный на получении контекстов из выдачи поисковых движков (типа Google или Yandex) с помощью знаний, имеющихся в тезаурусе. Весь процесс получения корпуса состоит из трёх этапов: препроцессинг, поиск и постпроцессинг.
- Препроцессинг. Для каждого слова w и его значения #i берутся их однозначные синонимы, а также слова, полученные после обработки глосса (словарного толкования, грамматических пояснений, примеров использования слова в различных контекстах и т. п.)
- Поиск. Затем, на стадии поиска формируются поисковые запросы, помогающие найти именно те контексты, в которых данное слово присутствует в нужном нам значении.
- Постпроцессинг. После этого, полученные контексты обрабатываются, фильтруются плохие и т. д.
Эффективность метода позволяет получать большое количество контекстов, примерно 91 % из которых являются правильными, что является довольно высоким результатом, достаточным для обучения машины. Также, у этого метода существует последователи и предшественники (например, алгоритм Leacock и Chodorow), однако все они так и не сравнились с ним по эффективности.
Второй метод, придуманный Яровски[2] и часто называемый bootstrapping, предлагает, начиная с небольшого количества вручную определённых примеров (так называемым seed examples), автоматически и итерационно расширять классы, разделяя оставшиеся контексты в неразмеченном тексте на классы, получая, таким образом, обучающую выборку. При этом за аксиому берутся такие вещи, как «one sense per collocation» и «one sense per discourse». Однако, этот способ также менее точен, чем способ Mihalcea, так как в данном случае не получаются однозначные контексты.
Также, существует ещё 3 метода[3], практически неприменимые к русскому языку:
- каталоги веб-страниц (такие как Open Directory Project);
- выравненные билингвальные тексты (однако, несмотря на быстрый рост подобных материалов, их количество для русского языка ещё недостаточно велико);
- коллаборативная работа в стиле Вики (Open Mind Word Expert project): принцип заключается в том, что лёгкие случаи разрешения многозначности решаются машиной, трудные — показываются волонтёрам в интернете; этот метод, к сожалению, не показал достаточно высоких результатов из-за не профессионализма добровольцев (62.8 % согласия между людьми по сравнению 85,5 % на Senseval).
Remove ads
Итог
Суммиров вкратце
Перспектива
Результаты
Автоматическое получение примеров для тренировки классификатора (обучение с учителем), как оказалось, является наилучшим подходом майнинга интернета для разрешения лексической многозначности. Стоит привести некоторые обнадёживающие результаты:
- В некоторых экспериментах, качества данных из интернета практически сравнялось с качеством корпуса, сделанным человеком: сочетание получения с помощью однозначных синонимов и бутстреппинга из SemCor’овских примеров[4] и примеры, полученные из ODP[5]. В первом, однако, примеры из SemCor’a необходимы и существуют только для английского языка, и тестирование проводилось со слишком небольшим количеством существительных, а во втором покрытие эксперимента слишком мало и неизвестно, насколько сильно ухудшается качество полученного корпуса при его увеличении.
- Также, было показано[6], что почти любая техника обучения с учителем, тренированная на автоматически полученных из интернета корпусах, превосходит все техники обучения без учителя, участвовавшие в Senseval-2.
- Примеры из интернета принесли огромную пользу в плане эффективности лучшим английским all-words алгоритмам на Senseval-2[7].
Проблемы
Однако, также существуют определённые проблемы и трудности, напрямую связанные с получением подобного корпуса:
- Хорошее качество полученных примеров (то есть, правильная принадлежность примеров к классам значений) не обязательно обеспечивает высокую точность классификатора[8].
- Наиболее объективные эксперименты по оценке качества полученных примеров показали[9], что обучение на этих примеров существенно повышает уровень точности разрешения многозначности, однако, тем не менее, результаты далеки от идеальных: они не то, что хуже полученных вручную, — она даже не превышают качество полученное с помощью most-frequent-sense baseline.
- Результаты не всегда удаётся повторить: те же самые или похожие методы могут привести к различным результатам в разных экспериментах. В качестве сравнения можно сравнить эксперименты: Mihalcea (2002[10]) с Agirre и Martínez (2004[9]), или Agirre и Martínez (2000[8]) с Mihalcea и Moldovan (1999[11]). Результаты, полученные с помощью интернета, показали, что данные очень чувствительны даже к небольшим изменениям в обучающем алгоритме, даже к дате получения корпуса (выдача поисковых машин постоянно меняется), и к незаметным эвристическим проблемам (например, различия в фильтрах по отбрасыванию части полученных примеров).
- На результаты сильно влияет такое явление как «перекос» (то есть, на соотношение частотностей примеров одних значений слова по сравнению с другими[9]). Так до конца неясно, является ли это проблемой только информации из Интернета или это проблема, присущая обучению с учителем, или же это проблема того, каким образом методы оцениваются (в самом деле, сравнительно небольшое количество данных Senseval вполне возможно является не такой уж и репрезентативной вещью по сравнению со всем интернетом в качестве корпуса).
- В любом случае, данные из интернета обладают перекосом, потому что запросы к поисковым системам непосредственно ограничивают множество полученных контекстов. Существуют подходы для смягчения этого эффекта, такие как: использование нескольких seeds или запросов для каждого из значений слова[10] или присваивание значениям соответствующих категорий из каталогов веб-сайтов[5]; однако эта проблема ещё далека от полного разрешения.
- У любого полученного корпуса контекстов не всегда ясен вопрос с лицензией по его использованию (правовая составляющая неясна).
Будущее области
Кроме вышеперечисленных техник получения корпуса из веба, также были проведены некоторые другие эксперименты, использующие интернет:
- Интернет, как социальная сеть, несколько раз был успешно использован для коллаборативной аннотации анонимными пользователями (проект OMWE, Open Mind Word Expert project)[12]: он был применён уже три раза для задач Senseval-3 (для английского, румынского языков и многоязыковой задачи).
- Интернет также использовался для обогащения значений WordNet'a знаниями о теме корпуса (domain-specific information): так называемые topic signatures[13] and Web directories[5], которые успешно применялись для разрешения многозначности.
- Также с недавних пор проводятся исследования по изучению возможности использования Википедии для разрешения многозначностей, перечисленных на страницах значений многозначных слов[14][15].
Однако возможности, открывающиеся и предоставляемые интернетом, ещё не до конца исследованы. К примеру, мало известно как использовать лексическую информацию, полученную с помощью knowledge-based систем разрешения многозначности; и также непонятно каким образом получать из интернета параллельные корпусы, хотя и эффективные алгоритмы для обработки таких корпусов уже существуют. Следовательно, следует ждать в этой области ещё многих интересных результатов в ближайшем будущем.
Remove ads
Примечания
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads