BERT (модель мови)

BERT (англ. Bidirectional Encoder Representations from Transformers, двоспрямовані кодувальні представлення з трансформерів) — це методика машинного навчання, що ґрунтується на трансформері, для попереднього тренування обробки природної мови (ОПМ), розроблена Google. BERT було створено й опубліковано 2018 року Джейкобом Девліним та його колегами з Google.^[1]^[2] Станом на 2019 рік Google застосовувала BERT, щоби краще розуміти пошуки користувачів.^[3]

Оригінальна англомовна модель BERT постачається у двох наперед натренованих варіантах:^[1] (1) модель BERT_BASE, нейромережна архітектура з 12 шарами, 768 прихованими, 12 головами, 110 мільйонами параметрів, та (2) модель BERT_LARGE, нейромережна архітектура з 24 шарами, 1024 прихованими, 16 головами, 340 мільйонами параметрів; обидві треновано на BooksCorpus^[4] з 800 мільйонами слів, та одній з версій англійської Вікіпедії з 2 500 мільйонами слів.

Remove ads

Продуктивність

Коли BERT було опубліковано, вона досягла найвищого рівня^[en] продуктивності в низці задач розуміння природної мови:^[1]

Наборі задач GLUE (англ. General Language Understanding Evaluation, загальна оцінка розуміння мови, що складається з 9 задач)
SQuAD (англ. Stanford Question Answering Dataset, Стенфордський питально-відповідальний набір даних) версій 1.1 та 2.0
SWAG (англ. Situations With Adversarial Generations, ситуації зі змагальними породженнями)

Remove ads

Аналіз

Узагальнити

Перспектива

Причини найвищого рівня^[en] продуктивності BERT в цих задачах розуміння природної мови ще не є достатньо зрозумілими.^[5]^[6] Поточні дослідження зосереджено на дослідженні взаємозв'язку у виході BERT як результату ретельно підібраних послідовностей входу,^[7]^[8] аналізі внутрішніх векторних представлень за допомогою зондувальних класифікаторів,^[9]^[10] та взаємозв'язках, представлених вагами уваги.^[5]^[6]

Однак за це доводиться платити: через архітектуру лише кодера, без декодера, BERT не може підказувати і не може генерувати текст, тоді як двонаправлені моделі загалом не працюють ефективно без правої сторони, тому їх важко підказувати, а генерування навіть короткого тексту вимагає складних обчислювальних технологій, що вимагають великих витрат^[11].

На відміну від нейронних мереж глибокого навчання, які потребують дуже великих обсягів даних, BERT вже пройшов попереднє навчання, що означає, що він вивчив представлення слів і речень, а також основні семантичні зв'язки, з якими вони пов'язані. Потім BERT може бути точно налаштований на менших наборах даних для конкретних завдань, таких як класифікація настроїв. Попередньо навчені моделі обираються відповідно до змісту набору даних, який використовується, а також мети завдання. Наприклад, якщо завдання полягає в класифікації настроїв за фінансовими даними, слід вибрати попередньо навчену модель для аналізу настроїв фінансового тексту. Ваги оригінальних попередньо навчених моделей були опубліковані на Github.^[12]

Remove ads

Історія

Узагальнити

Перспектива

BERT бере свій початок з попереднього тренування контекстних представлень, включно з напівкерованим навчанням послідовностей,^[13] породжувальним попереднім тренуванням, ELMo^[14] та ULMFit.^[15] На відміну від попередніх моделей, BERT є глибинно двоспрямованим, спонтанним представленням мови, попередньо тренованим із застосуванням лише простого корпусу тексту. Контекстно-вільні моделі, такі як word2vec та GloVe, породжують представлення вкладення одного слова для кожного зі слів у словнику, тоді як BERT бере до уваги контекст кожного входження заданого слова. Наприклад, якщо вектор для англ. «running» матиме однакове векторне представлення word2vec для його входження як в реченні англ. «He is running a company» («Він керує компанією»), так і в реченні англ. «He is running a marathon» («Він біжить марафон»), то BERT забезпечуватиме контекстоване вкладення, що буде відмінним відповідно до сенсу.

25 жовтня 2019 року Пошук Google анонсував, що вони почали застосовувати моделі BERT для пошукових запитів англійською мовою в межах США.^[16] 9 грудня 2019 року було повідомлено, що BERT було прийнято Пошуком Google для понад 70 мов.^[17] У жовтні 2020 року майже кожен англомовний запит оброблявся за допомогою BERT-моделі.^[18]

Визнання

BERT виграла нагороду за найкращу довгу працю на щорічній конференції Північноамериканського відділення Асоціації з обчислювальної лінгвістики^[en] (англ. North American Chapter of the Association for Computational Linguistics, NAACL) 2019 року.^[19]

Див. також

Примітки

Loading content...

Посилання

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads