Лучшие вопросы
Таймлайн
Чат
Перспективы

Generative pre-trained transformer

тип нейронных языковых моделей Из Википедии, свободной энциклопедии

Generative pre-trained transformer
Remove ads

Generative pre-trained transformer или GPT (рус. Генеративный предобученный трансформер) — это тип нейронных языковых моделей, которые обучаются на больших наборах текстовых данных, чтобы генерировать текст, схожий с человеческим. Предобучение относится к начальному процессу обучения на корпусе, в результате которого модель учится предсказывать следующее слово в тексте и получает основу для успешного выполнения дальнейших задач, не имея больших объёмов данных. GPT являются «трансформерами», которые представляют собой тип нейросетей, использующих механизм самосвязываемости для обработки последовательных данных. Они могут быть дообучены для различных задач обработки естественного языка (NLP), таких как генерация текста, машинный перевод и классификация текста.

Thumb
Оригинальная языковая модель GPT
Remove ads

Языковые модели GPT от OpenAI

Суммиров вкратце
Перспектива

11 июня 2018 года компания OpenAI опубликовала статью под названием «Improving Language Understanding by Generative Pre-Training», в которой был представлен Генеративный предобученный трансформер (GPT)[1]. До этого момента лучшие нейронные модели обработки естественного языка в основном использовали обучение с учителем на больших объёмах вручную размеченных данных. Это ограничивало их применение на недостаточно размеченных наборах данных, а также делало крайне дорогим и времязатратным обучение очень больших языковых моделей[2]. Кроме того, многие языки (такие как суахили или гаитянский креольский) были трудны в переводе и интерпретации с помощью таких моделей из-за отсутствия достаточного количества текстов на данных языках[2]. Предложенный OpenAI подход слабонадзорного ("полунадзорного")[англ.] обучения на основе модели GPT включает два этапа:

  1. несобственное генеративное «предварительное» обучение, на котором устанавливаются начальные параметры путём обучения модели языковым моделированием
  2. собственное дискриминативное (различительное)[англ.] «дообучающее» обучение, на котором эти параметры адаптируются к конкретной задаче.
Подробнее Использование, Архитектура ...
Remove ads

Другие (производные) модели GPT

После того, как OpenAI выпустила свою модель GPT-3, EleutherAI выпустила ряд больших языковых моделей (LLM) с открытым исходным кодом, и её модель GPT-J привлекла значительное внимание как альтернативная. С этих пор появляются новые языковые модели на основе GPT.

Подробнее Использование, Архитектура ...
Remove ads

Примечания

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads