Топ питань
Часова шкала
Чат
Перспективи
Видобування термінології
тип видобутку тексту; автоматичний метод аналізу тексту з метою виявлення фраз, які відповідають критеріям для термінів З Вікіпедії, вільної енциклопедії
Remove ads
Видобування термінології (інші назви — видобування термінів, видобування глосарія, розпізнавання термінів, видобуток термінології) — одна із задач у рамках видобування інформації. Метою видобування термінології є автоматичне віднайдення термінів певної предметної області в наявному корпусі текстів[1].
В епоху семантичної павутини дедалі більше спільнот і мережевих підприємств отримують доступ до Інтернету і взаємодіють у ньому. Моделювання такої взаємодії та інформаційних потреб цих спільнот є важливим для деяких вебзастосунків, як-от пошукові роботи[2], вебслужби[3], рекомендаційні системи[4] тощо. Крім того, розвиток технологій видобування термінології важливий для мовної галузі.
Одним із перших кроків до моделювання предметної області є складання словника релевантних термінів, який стає мовним унаочненням її понять. У літературі описано кілька методів автоматичного видобування технічних термінів зі сховищ документів[5][6][7][8][9][10][11][12][13][14][15][16].
Як правило, для автоматичного виділення термінів використовують засоби обробки мови (розмічування частин мови, виокремлення фраз), за допомогою яких визначають термінологічні кандидати — тобто синтаксично вірогідні термінологічні іменникові групи.
Іменникові групи включають:
- іменникові словосполучення (наприклад, «рада директорів»)
- прикметникові іменникові словосполучення (наприклад, «кредитна картка»)
- прийменникові іменникові словосполучення (наприклад, «лоток для відходів»).
Зокрема, в англійській мові найчастіше зустрічаються перші два типи (іменникові та іменникові словосполучення)[1].
Після цього терміни, які увійшли в список кандидатів, обробляються за допомогою методів статистики і машинного навчання. Відфільтровані таким чином терміни матимуть низьку неоднозначність і високу специфічність, тому вони особливо корисні для концептуалізації області знань і для підтримки створення онтології області або термінологічної бази.
Видобування термінології є дуже корисною відправною точкою для семантичної схожості, управління знаннями, перекладу людиною та машинного перекладу тощо.
Remove ads
Видобування двомовної термінології
Методи видобування термінології застосовні не тільки до одномовних, а й до паралельних корпусів. У поєднанні, наприклад, зі статистикою спільного входження можна створити список кандидатів для перекладу термінів[17]. Двомовну термінологію можна також витягти із порівнянних корпусів[18] (тобто корпусів, які містять тексти в межах одного текстового типу і належать до однієї предметної області, але не містять перекладів).
Remove ads
Див. також
Примітки
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads