GPT-3

Generative Pre-trained Transformer 3 (GPT-3)
원저자	OpenAI
발표일	2020년 6월 11일 (베타)
저장소	github.com/openai/gpt-3 ;
대체한 소프트웨어	GPT-2
대체된 소프트웨어	GPT-4
종류	자기회귀 변환기 언어 모델
웹사이트	openai.com/blog/openai-api

생성적 사전학습 변환기 3(영어: Generative Pre-trained Transformer 3), GPT-3는 OpenAI에서 만든 딥러닝을 이용한 대형 언어 모델이다. 비지도 학습과 생성적 사전학습(generative pre-training)기법, 변환기(transformer)를 적용해 만들어 졌다. 번역과 대화, 작문을 할 수 있으며, GPT-2에 비해 훨씬 인간이 쓴 글인지 기계가 쓴 글인지 구분하기 어렵다.

간략 정보 원저자, 발표일 ...

OpenAI가 2020년에 출시한 자동 회귀 언어 모델로 딥 러닝을 사용하여 사람과 같은 텍스트를 생성한다. 프롬프트가 주어지면 프롬프트를 계속하는 텍스트를 생성한다.

이 아키텍처는 2048개의 토큰 길이 컨텍스트와 1,750억 개의 파라미터라는 전례 없는 크기를 가진 디코더 전용 변환기 네트워크로, 저장하는 데 800GB가 필요하다. 모델은 생성 사전 훈련을 사용하여 훈련되었다. 이전 토큰을 기반으로 다음 토큰이 무엇인지 예측하도록 훈련된다. 이 모델은 많은 작업에서 강력한 제로샷 및 퓨샷 학습을 보여주었다.^[2]

GPT-2의 후속인 GPT-3는 샌프란시스코에 기반을 둔 인공 지능 연구소인 OpenAI에서 만든 기초 모델인 GPT 시리즈의 3세대 언어 예측 모델이다.^[3] 2020년 5월에 도입되어 2020년 7월 기준으로 베타 테스트 중인^[4] GPT-3는 사전 훈련된 언어 표현의 자연어 처리(NLP) 시스템 트렌드의 일부이다.^[1]

GPT-3에 의해 생성된 텍스트의 품질은 너무 높아서 사람이 작성했는지 여부를 판단하기 어려울 수 있으며 이점과 위험이 모두 있다.^[5] 31명의 OpenAI 연구원과 엔지니어가 2020년 5월 28일 GPT-3를 소개하는 원본 논문을 발표했다. 그들의 논문에서 그들은 GPT-3의 잠재적인 위험에 대해 경고하고 위험을 완화하기 위한 연구를 촉구했다.^[1]^:34 뉴욕 타임스의 2022년 4월 리뷰에서는 GPT-3의 기능이 인간과 동등한 유창함으로 독창적인 산문을 작성할 수 있다고 설명했다.^[6]

마이크로소프트는 2020년 9월 22일에 GPT-3의 "독점적" 사용을 허가했다고 발표했다. 다른 사람들은 여전히 공개 API를 사용하여 출력을 받을 수 있지만 마이크로소프트만이 GPT-3의 기본 모델에 접근할 수 있다.^[7]

[1]

[2]

[3]

[4]

[5]

[6]

[7]

모델명	파라미터	API 이름
GPT-3 Small	117 M	n/a
GPT-3 Medium	350 M	ada
GPT-3 Large	760 M	n/a
GPT-3 XL	1.3 B	babbage
GPT-3 2.7B	2.7 B	n/a
GPT-3 6.7B	6.7 B	curie
GPT-3 13B	13B	n/a
GPT-3 175B	175B	davinci

모델	파라미터	시리즈
ada	350 M	Base GPT-3
babbage	1.3 B	Base GPT-3
curie	6.7B	Base GPT-3
davinci	175 B	Base GPT-3
text-ada	350 M	InstructGPT-3
text-babbage	175B	InstructGPT-3
text-curie	6.7B	InstructGPT-3
text-davinci-001	175B	InstructGPT-3
text-davinci-002	175B	GPT-3.5
text-davinci-003	175B	GPT-3.5
gpt-3.5-turbo	175B	GPT-3.5

GPT-3

모델

InstructGPT

같이 보기

각주

Wikiwand - on