Топ питань
Часова шкала
Чат
Перспективи

Машинний переклад

підгалузь штучного інтелекту в комп’ютерній лінгвістиці З Вікіпедії, вільної енциклопедії

Remove ads

Машинний переклад (МП) — технології автоматизованого перекладу текстів (письмових та усних) з однієї природної мови на іншу за допомогою комп'ютера; напрямок наукових досліджень, пов'язаний з побудовою систем автоматизованого перекладу.

Опис

Узагальнити
Перспектива

Машинний переклад — одна з підгруп комп’ютерної лінгвістики, яка досліджує використання програмного забезпечення для перекладу тексту з однієї мови на іншу[1].

На базовому рівні, робота комп'ютерних програм для перекладу полягає у заміні слів чи словосполучень з однієї мови на слова чи словосполучення з іншої. Однак тоді виникає проблема, що така заміна не може забезпечити якісний переклад тексту, адже потрібне визначення та розпізнання слів та цілих фраз з мови оригіналу. Це спонукає активну наукову діяльність у галузі комп'ютерної лінгвістики. Наразі, для вирішення неоднозначностей при перекладі, використовуються багатомовні онтологічні ресурси, такі як WordNet та UWN.

На початковому рівні МТ виконує звичайну заміну слів з однієї мови на слова з іншої мови, але, зазвичай, переклад здійснений таким чином не є дуже якісним, адже для того щоб, повністю передати сенс речення, та знайти найспорідненіший аналог в «цільовій» (target language) — потрібній перекладачу мові, часто потрібно здійснювати переклад цілої фрази.

Вирішення цієї проблеми з статистичними (statistical) та нейронними (neural) системами перекладу є швидко зростаючою галуззю, яка веде до покращення перекладу, усунення різниці в лінгвістичній типології, перекладу ідіом та виділенню аномалій.

Сучасне програмне забезпечення для машинного перекладу має функцію зміни налаштувань за доменом (domain) — галуззю або професійною діяльністю (напр. метеорологічні звіти). Обмежуючи сферу допустимих замін/заміщень ми маємо змогу отримати кращий результат перекладу.

Цей метод є особливо ефективним в сферах де використовується формальна чи шаблонна мова. Це означає, що машинний переклад, наприклад, урядових та юридичних документів є більш якісним, ніж переклад розмовних чи будь-яких менш стандартизованих текстів.

Підвищення якості кінцевого продукту може також бути досягнуто шляхом людського втручання: наприклад деякі системи зможуть надати більш точний переклад, якщо користувач заздалегідь позначить які слова в тексті є власними іменами.

За допомогою цих методів, МТ проявив себе як знаряддя, що дійсно допомагає перекладачам, а іноді, у дуже рідкісних випадках і сам може слугувати високоякісним перекладачем, здійснюючи переклад, який не потребує корекції.

Remove ads

Автоматизований переклад

Замість «машинний» іноді вживається слово автоматичний, що не впливає на сенс. Проте термін автоматизований переклад має зовсім інше значення  — в такому випадку програма просто допомагає людині перекладати тексти.

Автоматизований переклад передбачає такі форми взаємодії:

  • Частково автоматизований переклад: наприклад, використання перекладачем-людиною комп'ютерних словників.
  • Системи з поділом праці: комп'ютер навчений перекладати тільки фрази чітко заданої структури (але робить це так, що виправляти за ним не потрібно), а все, що не вклалося в схему, залишає людині.

В англомовній термінології також розрізняються терміни англ. machine translation, MT (повністю автоматичний переклад) і англ. machine-aided або англ. machine-assisted translation (MAT) (автоматизований); якщо ж треба позначити й те, й інше, пишуть — M(A)T.

Remove ads

Типи систем машинного перекладу

Докладніше: Типи систем машинного перекладу

Існують два принципово різних підходи до побудови алгоритмів машинного перекладу: заснований на правилах (rule-based) і статистичний, або заснований на статистиці (statistical-based). Перший підхід є традиційним і використовується більшістю розробників систем машинного перекладу (ПРОМТ у Росії, SYSTRAN у Франції, Linguatec у Німеччині тощо).

МП на основі правил (Rule-based MT)

Узагальнити
Перспектива

МП на основі правил (Rule-based MT — RBMT, «Класичний підхід» МП) — система машинного перекладу, сформована на базі лінгвістичної інформації з одномовних (unilingual), двомовних (bilingual) чи багатомовних (multilingual) словників та граматичних правил вихідної мови та цільової мови.

Система охоплює основні семантичні, морфологічні та синтаксичні закономірності кожної мови. Відповідно, для того щоб здійснити переклад, система повинна зробити попередній морфологічний, синтаксичний та семантичний аналіз тексту, і тільки після цього вона генерує речення. Найбільший мінус RB-перекладу полягає в тому, що для здійснення програмою коректного перекладу, її база даних повинна містити усі орфографічні варіації та помилкові форми введення слів, а для всіх випадків неоднозначності повинні бути написані правила лексичного відбору.

Сама по собі, адаптація до нових доменів є не таким вже і складним процесом, оскільки основи граматики для всіх доменів однакові, а налаштування сфер користувацької діяльності обмежується лише корекцією лексичного відбору.

Отож, така система машинного перекладу є першим, класичним методом його здійснення. Вона дозволяє отримати більш якісний результат, аніж статистичний метод, але синтезує переклад повільніше.

Remove ads

Статистичний переклад (Statistical MT)

Узагальнити
Перспектива

Статистичний машинний переклад — це різновид машинного перекладу тексту, заснований на порівнянні великих обсягів мовних пар. Мовні пари — тексти, що містять речення однією мовою і відповідні речення іншою, можуть бути як варіантами написання двох речень людиною — носієм двох мов, так і набором речень та їх перекладів, виконаних людиною. Таким чином статистичний машинний переклад володіє властивістю «самонавчання». Чим більше в розпорядженні програми є мовних пар і чим точніше вони відповідають один одному, тим кращий результат статистичного машинного перекладу.

Під поняттям «статистичного машинного перекладу» мається на увазі загальний підхід до вирішення проблеми перекладу, який заснований на пошуку найімовірнішого перекладу речення з використанням даних, отриманих з двомовної сукупності текстів. Прикладом двомовної сукупності текстів можна назвати парламентські звіти, які являють собою протоколи дебатів у парламенті. Двомовні парламентські звіти видаються в Канаді, Гонконгу та інших країнах; офіційні документи Європейського економічного співтовариства видаються 11 мовами; а Організація Об'єднаних Націй публікує документи на декількох мовах. Як виявилося, ці матеріали є безцінними ресурсами для статистичного машинного перекладу.

Дана система базується на статистичному вирахуванні імовірності збігів. Задля виконання перекладу програма повинна мати доступ до сотень мільйонів документів, які заздалегідь були перекладені людьми. Такі документи слугують для системи шаблонами, на основі яких вона і здійснює переклад. Чим більше документів, тим вища ймовірність більш якісного перекладу.

На початку свого існування, з 2006 року, Google Translate базувався саме на статистичному методі машинного перекладу, і здійснений ним переклад був дуже низької якості, і вважався одним з найгірших варіантів перекладу, який може здійснити онлайн-перекладач. Сьогодні Google використовує «нейронний» метод МП і складає серйозну конкуренцію комерційним підприємствам, продукція яких не є безкоштовною.

Remove ads

«Нейронний» МП (Neural MT)

Даний підхід заснований на методі глибокого засвоєння інформації (deep learning).

Поглиблене навчання/Поглиблене засвоєння інформації (Deep learning) (також відоме як глибоке структурне навчання або ієрархічне навчання) є частиною більш широкої групи методів машинного навчання, що базуються на інтерпретації результатів навчання, на відміну від алгоритмів конкретних завдань. Навчання може бути як керованим, так і некерованим.

Машинне навчання (Machine learning) — комп’ютерна наука, яка дає комп’ютерам можливість засвоювати інформацію без попереднього запрограмування на цю дію. В останні роки «нейронний» МП відзначився стрімким розвитком своїх технологій, навіть компанія Google оголосила, що її перекладацькі сервіси на даний момент в переважній більшості використовують цей метод перекладу, аніж їх попередній статистичний метод.

Інші компанії включно з KantanMT, Omniscien Technologies та SDL також оголосили про подальше використання технології «нейронного» МП в 2017 році.

Для керовання перекладами, породжуваними моделлю GPT-3, потрібне конструювання підказок.[2][3]

Remove ads

Гібридний МП (Hybrid MT)

Узагальнити
Перспектива

Останнім часом все більшої популярності набирає гібридний МП (Hybrid machine translation [HMT]).

ГМП використовує сильні сторони обох систем машинного перекладу, в результаті користувач отримує якісний переклад, який забезпечує RBMT та високу швидкість, яку надає статистичний метод.

Кілька компаній, які займаються МП, наприклад Omniscien Technologies (колишня Asia Online), LinguaSys, SYSTRAN, PROMT та інші, стверджують, що використовують саме гібридний вид МП.

Види гібридного МП різняться між собою:

  • Статистична корекція після виконання перекладу системою RBMT: Спочатку переклади здійснюються системою RBMT, а після цього, з метою виправлення помилок або ж внесення власних корективів застосовується система статистичного МП.
  • Статистичний метод, що керується правилами: Правила використовують для попередньої обробки даних, задля здійснення кращого управління статистичним механізмом. Правила також використовують для обробки даних після здійснення статистичного перекладу для виконання такої функції як нормалізація.

Цей метод перекладу має багато переваг: він є більш потужним, гнучким (тобто здійснює якісний переклад в багатьох сферах діяльності). Система також контролює процес обробки контенту як при здійсненні завчасного перекладу, (наприклад, розподілу вмісту та термінів що не перекладаються) так і після здійснення перекладу (корегування та виправлення).

Нещодавно, з появою нейронного МП, з’явилася нова версія гібридного МП, яка поєднує в собі переваги 3 видів машинного перекладу: RB, статистичного та нейронного. Такий підхід дозволяє користуватися перевагами NMT та SMT які в процесі перекладу контролюються правилами RBMT. Єдиним недоліком цієї системи перекладу є невід‘ємна складність такої роботи, яка робить його нагідним лише для специфічних випадків використання. Одним з прихильників такого методу для складних випадків — Omniscien Technologies.

Remove ads

Машинний переклад в Україні

Узагальнити
Перспектива

Pragma

«Pragma» була першою комерційною багатомовною системою машинного перекладу українського виробництва. Розробник програми — компанія Trident Software (ТОВ «Трайдент Софтвер»)[4][5], заснована в 1998 році. Відтоді було розроблено декілька лінійок продуктів — Language Master, L-Master 98 та Pragma, а також безплатний сервіс онлайн перекладу Translate.ua на основі рушія Pragma[6][7][8][9].

Українські сервіси онлайн перекладу translate.meta.ua та perevod.i.ua використовують рушій Pragma на власних серверах[10][11].

Компанія Trident Software також розробляла первинні мовні пари української, польської та латвійської для російської системи машинного перекладу PROMT[12][13].

ПЛАЙ

Ще однією українською розробкою є перекладач «ПЛАЙ»[14][15] з офісного пакету «Пролінг ОФІС»[16][17] від компанії АТ «МТ»[18], який перекладає лише з української на російську і навпаки[19][20][21][22]. Програма є доповненням до Microsoft Office[23][24][25][26].

Українська мова в іноземних системах МП

Лідером серед іноземних систем МП з підтримкою української є Google (Перекладач Google). Його безкоштовна система на базі «нейронного» МП (Нейронний машинний переклад Google) здатна здійснювати більш-менш якісний переклад зі 103 мов та надає доступ до аудіосупроводу (щоправда, він доступний не для всіх мов).

Також українська підтримується більшістю відомих онлайн сервісів, таких як LibreTranslate[27][28][29], DeepL Translator[30], Bing Translate, Glosbe, тощо[31].

У 2023, Єврокомісія додала українську до власної онлайн системи МП eTranslate[32][33].

Кримсько-татарська мова в іноземних системах МП

У 2018, в Україні спробували створити онлайн перекладач кримсько-татарської[34].

У 2022, Фонд Східна Європа та КНУ ім. Шевчека розпочали проект «Збережемо мову» з метою додавання у іноземні системи МП підтримки кримсько-татарської[35], яку було додано у перекладачі Glosbe та Google у 2023-2024[36][37].

Українська жестова мова і системи МП

У 2014, було розпочато роботу зі створення системи МП української жестової мови[38].

З 2020, послугу з перекладу українською жестовою мовою надавали фахівці УТОС через відеозв'язок[39].

З 2022, фахівці польскої компанії Migam[40], яка займалася розробкою ШІ для системи МП жестової мови[41][42], безкоштовно надавали українцям послугу з перекладу українською жестовою мовою через відеозв'язок[43][44][45].

Remove ads

Критика

З моменту виникнення машинного перекладу (кінець 50-х років XX ст.) і до сьогодення науковці сперечаються щодо його прогресу та потенціалу.

Починаючи з 1950-х років ряд дослідників поставили під сумнів той факт, що автоматично здійснений переклад може бути високої якості.

Деякі критики стверджують що існують перешкоди, що унеможливлюють повну комп’ютеризацію процесу перекладу.

Див. також

Джерела

  • Формування професійних умінь та навичок у майбутніх перекладачів засобами інформаційно-комунікаційних технологій / О. В. Шупта, О. О. Мацюк. // Вісник Національної академії Державної прикордонної служби України. - 2011. - Вип. 5. - Режим доступу: http://nbuv.gov.ua/UJRN/Vnadps_2011_5_27
  • Русіна Н.Г., Яресько Т.В. Сучасні інформаційні технології. Робоча навчальна програма напрям підготовки «Право» для студентів спеціальності “Правознавство” (6.030401) — Київ: 2012. Режим доступу: https://csc.knu.ua/library/books/rusina-15.pdf
  • Порівняльне правознавство у сфері інформаційного права / В. М. Брижко // Інформація і право. - 2012. - № 1. - С. 23-32. - Режим доступу: http://nbuv.gov.ua/UJRN/Infpr_2012_1_5
  • Персоналізація контролю знань студентів у імітаційній моделі тестування / О. М. Алєксєєв, О. М. Король // Науковий часопис НПУ імені М. П. Драгоманова. Серія 2 : Комп'ютерно-орієнтовані системи навчання. - 2012. - №. 12. - С. 231-235. - Режим доступу: http://nbuv.gov.ua/UJRN/Nchnpu_2_2012_12_37
  • Разработка методики применения программ машинного перевода в подготовке менеджеров / И. Л. Семичастный, Е. А. Шеховцова // Вісник ДІТБ. Серія : Економіка, організація та управління підприємствами туристичної індустрії та туристичної галузі в цілому. - 2013. - № 17. - С. 89-95. - Режим доступу: http://nbuv.gov.ua/UJRN/vditb_2013_17_17
  • Сучасний стан онлайнових перекладачів (німецька та українська мови) / О. О. Гуменюк // Наукові записки [Ніжинського державного університету ім. Миколи Гоголя]. Серія : Філологічні науки. - 2013. - Кн. 3. - С. 145-150. - Режим доступу: http://nbuv.gov.ua/UJRN/Nzfn_2013_3_31
  • Моделювання префіксального словотворення в системах машинного перекладу (на матеріалі англійських військових текстів) / В. Лісовський // Українське мовознавство. - 2013. - Вип. 43. - С. 36-44. - Режим доступу: http://nbuv.gov.ua/UJRN/Um_2013_43_7
  • Проблеми автоматизованого перекладу / С. Ю. Юхимець, Т. М. Корольова // Науковий вісник Південноукраїнського національного педагогічного університету ім. К. Д. Ушинського. Лінгвістичні науки. - 2013. - № 17. - С. 238-247. - Режим доступу: http://nbuv.gov.ua/UJRN/Nvpupu_2013_17_33
  • Аналітичний огляд електронних ресурсів для вивчення латинської мови / О. Ю. Балалаєва // Інформаційні технології і засоби навчання. - 2014. - Т. 40, вип. 2. - С. 74-82. - Режим доступу: http://nbuv.gov.ua/UJRN/ITZN_2014_40_2_9
  • Загальна характеристика технологій комп’ютеризованого перекладу і опрацювання текстів та способи їх впровадження в навчальний процес у вищих педагогічних навчальних закладах / Н. П. Франчук // Науковий часопис НПУ імені М. П. Драгоманова. Серія 2 : Комп'ютерно-орієнтовані системи навчання. - 2015. - №. 15. - С. 70-76. - Режим доступу: http://nbuv.gov.ua/UJRN/Nchnpu_2_2015_15_14
  • Професійна підготовка майбутніх учителів філологічних спеціальностей у середовищі веб-орієнтованих систем навчання / О. О. Кишинська, Х. В. Середа // Інформаційні технології і засоби навчання. - 2015. - Т. 49, вип. 5. - С. 152-164. - Режим доступу: http://nbuv.gov.ua/UJRN/ITZN_2015_49_5_14
  • Проблеми автоматизованого перекладу ділової кореспонденції за допомогою вільних програмних продуктів / О. Л. Башманівський // Соціум. Документ. Комунікація . - 2016. - Вип. 2. - С. 79-90. - Режим доступу: http://nbuv.gov.ua/UJRN/cdk_2016_2_8
  • Помилки на трансформаційних рівнях турецько-українського перекладу під час роботи із СМП / Є. В. Михайлова // Науковий вісник Дрогобицького державного педагогічного університету імені Івана Франка. Сер. : Філологічні науки (мовознавство). - 2017. - № 8(1). - С. 156-158. - Режим доступу: http://nbuv.gov.ua/UJRN/nvddpufm_2017_8%281%29__37
  • Проблеми перекладу лінгвостилістичних особливостей політичної риторики Дональда Трампа / І. Носко // Наукові записки [Вінницького державного педагогічного університету імені Михайла Коцюбинського]. Серія : Філологія (мовознавство). - 2018. - Вип. 26. - С. 160-167. - Режим доступу: http://nbuv.gov.ua/UJRN/Nzvdpu_filol_2018_26_23
  • Методика побудови програмних комплексів на прикладі відкритої кросплатформної онлайн-системи для перекладу тексту / Г. С. Погромська, Н. А. Махровська // Відкрите освітнє е-середовище сучасного університету. - 2021. - Вип. 11. - С. 130-145. - doi:10.28925/2414-0325.2021.1112. ISSN 2414-0325 Режим доступу: http://nbuv.gov.ua/UJRN/oeeemu_2021_11_13
  • Панченко, О.І. Можливості сприйняття української поезії за допомогою машинного перекладу.
Remove ads

Примітки

Посилання

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads