Топ питань
Часова шкала
Чат
Перспективи
Generative pre-trained transformer
З Вікіпедії, вільної енциклопедії
Remove ads
Generative pre-trained transformer (GPT, укр. породжувальний попередньо тренований трансформер,[1] також генеративний попередньо тренований трансформер,[2] рідше породжувальний попередньо натренований трансформер[3]) — варіант «штучного інтелекту»[4][5] — це сімейство мовних моделей, які зазвичай навчаються на великому корпусі текстових даних для створення тексту, схожого на текст людини. Вони побудовані з використанням декількох блоків трансформної архітектури. Їх можна точно налаштувати для виконання різноманітних завдань обробки природної мови, таких як генерація тексту, переклад мови та класифікація тексту. «Попереднє навчання» в його назві означає початковий процес навчання на великому текстовому корпусі, під час якого модель вчиться передбачати наступне слово в уривку, що забезпечує надійну основу для успішної роботи моделі в наступних завданнях з обмеженою кількістю даних, що стосуються конкретного завдання.

Remove ads
Застосування
- ChatGPT (Chat Generative Pre-trained Transformer)[6] — це чат-бот, запущений OpenAI у листопаді 2022 року. Він використовує GPT-3.5 і налаштований (підхід до перенесення навчання)[7] як на кероване навчання, так і на навчання з підкріпленням.
- BioGPT — це GPT, який фокусується на відповідях на біомедичні запитання.[8] Він розроблений Microsoft.[9]
- ProtGPT2 — це GPT, який зосереджується на білковому дизайні.[10]
Remove ads
Історія
Узагальнити
Перспектива
11 червня 2018 року OpenAI опублікувала статтю під назвою «Покращення розуміння мови за допомогою генеративного попереднього навчання», в якому вони представили Generative Pre-trained Transformer (GPT).[11] На той момент найефективніші нейронні моделі НЛП переважно використовували кероване навчання з великих обсягів даних, позначених вручну. Ця залежність від керованого навчання обмежувала їхнє використання в наборах даних, які не були добре анотованими, а також робила навчання надзвичайно великих моделей надто дорогим і трудомістким;[11][12] багато мов (наприклад, суахілі чи гаїтянська креольська) важко перекладати та інтерпретувати за допомогою таких моделей через брак доступного тексту для побудови корпусу.[12] На відміну від цього, «напівкерований» підхід GPT включав два етапи: некерований генеративний етап «попереднього навчання», на якому мета моделювання мови використовувалася для встановлення початкових параметрів, і керований етап дискримінаційного «тонкого налаштування», на якому ці параметри були адаптовані до цільового завдання.[11]
Remove ads
Див. також
Примітки
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads