Топ питань
Часова шкала
Чат
Перспективи

Generative pre-trained transformer

З Вікіпедії, вільної енциклопедії

Generative pre-trained transformer
Remove ads

Generative pre-trained transformer (GPT, укр. породжувальний попередньо тренований трансформер,[1] також генеративний попередньо тренований трансформер,[2] рідше породжувальний попередньо натренований трансформер[3]) — варіант «штучного інтелекту»[4][5] — це сімейство мовних моделей, які зазвичай навчаються на великому корпусі текстових даних для створення тексту, схожого на текст людини. Вони побудовані з використанням декількох блоків трансформної архітектури. Їх можна точно налаштувати для виконання різноманітних завдань обробки природної мови, таких як генерація тексту, переклад мови та класифікація тексту. «Попереднє навчання» в його назві означає початковий процес навчання на великому текстовому корпусі, під час якого модель вчиться передбачати наступне слово в уривку, що забезпечує надійну основу для успішної роботи моделі в наступних завданнях з обмеженою кількістю даних, що стосуються конкретного завдання.

Thumb
Модель GPT
Remove ads

Застосування

Remove ads

Історія

Узагальнити
Перспектива

11 червня 2018 року OpenAI опублікувала статтю під назвою «Покращення розуміння мови за допомогою генеративного попереднього навчання», в якому вони представили Generative Pre-trained Transformer (GPT).[11] На той момент найефективніші нейронні моделі НЛП переважно використовували кероване навчання з великих обсягів даних, позначених вручну. Ця залежність від керованого навчання обмежувала їхнє використання в наборах даних, які не були добре анотованими, а також робила навчання надзвичайно великих моделей надто дорогим і трудомістким;[11][12] багато мов (наприклад, суахілі чи гаїтянська креольська) важко перекладати та інтерпретувати за допомогою таких моделей через брак доступного тексту для побудови корпусу.[12] На відміну від цього, «напівкерований» підхід GPT включав два етапи: некерований генеративний етап «попереднього навчання», на якому мета моделювання мови використовувалася для встановлення початкових параметрів, і керований етап дискримінаційного «тонкого налаштування», на якому ці параметри були адаптовані до цільового завдання.[11]

Більше інформації Архітектура, Кількість параметрів ...
Remove ads

Див. також

Примітки

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads