Generative pre-trained transformer

11 июня 2018 года компания OpenAI опубликовала статью под названием «Improving Language Understanding by Generative Pre-Training», в которой был представлен Генеративный предобученный трансформер (GPT)^[1]. До этого момента лучшие нейронные модели обработки естественного языка в основном использовали обучение с учителем на больших объёмах вручную размеченных данных. Это ограничивало их применение на недостаточно размеченных наборах данных, а также делало крайне дорогим и времязатратным обучение очень больших языковых моделей^[2]. Кроме того, многие языки (такие как суахили или гаитянский креольский) были трудны в переводе и интерпретации с помощью таких моделей из-за отсутствия достаточного количества текстов на данных языках^[2]. Предложенный OpenAI подход слабонадзорного ("полунадзорного")^[англ.] обучения на основе модели GPT включает два этапа:

несобственное генеративное «предварительное» обучение, на котором устанавливаются начальные параметры путём обучения модели языковым моделированием
собственное дискриминативное (различительное)^[англ.] «дообучающее» обучение, на котором эти параметры адаптируются к конкретной задаче.

Подробнее Использование, Архитектура ...

Версии GPT от OpenAI
	Использование	Архитектура	Количество параметров	Тренировочные данные	Дата выпуска
GPT-1^[англ.]	Общее	12-уровневый декодер-трансформер с 12 головками (без кодировщика), за которым следует линейный софтмакс.	117 миллионов	BookCorpus: 4,5 ГБ текста из 7000 неизданных книг разных жанров.^[3]	11 июня 2018^[4]
GPT-2^[англ.]	Общее	GPT-1, но с изменённой нормализацией^[англ.].	1,5 миллиарда (▲1 273 000 %)	WebText: 40 ГБ текста и 8 миллионов документов из 40 миллионов веб-страниц, за которые проголосовали на Reddit.	14 февраля 2019
GPT-3	Общее	GPT-2, но с изменениями для возможности масштабирования в большем объёме.	175 миллиардов (▲11 566 %)	570 ГБ обычного текста, 0,4 трлн токенов. В основном содержит данные из наборов данных Common Crawl, WebText, английской Википедии, а также BookCorpus.	11 июня 2020^[5]
InstructGPT (GPT-3.5)	Разговор	GPT-3, тонко настроенный^[англ.] для выполнения инструкций с использованием обратной связи с человеком.	175 миллиардов^[6]	Неизвестно	4 марта 2022
ChatGPT	Диалог	Использует GPT-3.5 и тонко настроенн^[англ.] (подход к трансферному обучению^[англ.]) как с обучением с учителем, так и с RLHF (обучение с подкреплением на основе отзывов людей).	Неизвестно	Неизвестно	30 ноября 2022
GPT-4	Общее	Также обучен на основе предсказания текста и основан на обучении с подкреплением. Принимает как текст, так и изображения. Дополнительные подробности не разглашаются.^[7]	Неизвестно	Неизвестно	14 марта 2023

После того, как OpenAI выпустила свою модель GPT-3, EleutherAI выпустила ряд больших языковых моделей (LLM) с открытым исходным кодом, и её модель GPT-J привлекла значительное внимание как альтернативная. С этих пор появляются новые языковые модели на основе GPT.

Подробнее Использование, Архитектура ...

	Использование	Архитектура	Количество параметров	Тренировочные данные	Дата выпуска	Разработчик
GPT-J	Общее	Параллельный декодер	6 миллиардов	Набор данных объёмом 825 ГБ с открытым исходным кодом (называемый «кучей»)	9 июня 2021	EleutherAI
BLOOM	Общее	Трансформер только для декодера	176 миллиардов	Данные 46 естественных языков и 13 языков программирования; Всего 1,6 терабайт предварительно обработанного текста.	6 июля 2022	Hugging Face
BioGPT	Биомедицинский контент^[8]^[9]	Как в GPT-2 Medium (24 слоев, 16 головок)	347 миллионов	Непустые записи из PubMed (всего 1,5 миллиона).	24 сентября 2022	Microsoft

Generative pre-trained transformer

Языковые модели GPT от OpenAI

Другие (производные) модели GPT

Примечания

Wikiwand - on