Топ питань
Часова шкала
Чат
Перспективи

Видобування термінології

тип видобутку тексту; автоматичний метод аналізу тексту з метою виявлення фраз, які відповідають критеріям для термінів З Вікіпедії, вільної енциклопедії

Remove ads

Видобування термінології (інші назви видобування термінів, видобування глосарія, розпізнавання термінів, видобуток термінології) — одна із задач у рамках видобування інформації. Метою видобування термінології є автоматичне віднайдення термінів певної предметної області в наявному корпусі текстів[1].

В епоху семантичної павутини дедалі більше спільнот і мережевих підприємств отримують доступ до Інтернету і взаємодіють у ньому. Моделювання такої взаємодії та інформаційних потреб цих спільнот є важливим для деяких вебзастосунків, як-от пошукові роботи[2], вебслужби[3], рекомендаційні системи[4] тощо. Крім того, розвиток технологій видобування термінології важливий для мовної галузі.

Одним із перших кроків до моделювання предметної області є складання словника релевантних термінів, який стає мовним унаочненням її понять. У літературі описано кілька методів автоматичного видобування технічних термінів зі сховищ документів[5][6][7][8][9][10][11][12][13][14][15][16].

Як правило, для автоматичного виділення термінів використовують засоби обробки мови (розмічування частин мови, виокремлення фраз), за допомогою яких визначають термінологічні кандидати — тобто синтаксично вірогідні термінологічні іменникові групи.

Іменникові групи включають:

  • іменникові словосполучення (наприклад, «рада директорів»)
  • прикметникові іменникові словосполучення (наприклад, «кредитна картка»)
  • прийменникові іменникові словосполучення (наприклад, «лоток для відходів»).

Зокрема, в англійській мові найчастіше зустрічаються перші два типи (іменникові та іменникові словосполучення)[1].

Після цього терміни, які увійшли в список кандидатів, обробляються за допомогою методів статистики і машинного навчання. Відфільтровані таким чином терміни матимуть низьку неоднозначність і високу специфічність, тому вони особливо корисні для концептуалізації області знань і для підтримки створення онтології області або термінологічної бази.

Видобування термінології є дуже корисною відправною точкою для семантичної схожості, управління знаннями, перекладу людиною та машинного перекладу тощо.

Remove ads

Видобування двомовної термінології

Методи видобування термінології застосовні не тільки до одномовних, а й до паралельних корпусів. У поєднанні, наприклад, зі статистикою спільного входження можна створити список кандидатів для перекладу термінів[17]. Двомовну термінологію можна також витягти із порівнянних корпусів[18] (тобто корпусів, які містять тексти в межах одного текстового типу і належать до однієї предметної області, але не містять перекладів).

Remove ads

Див. також

Примітки

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads