GPT (言語モデル)

GPT（英: Generative Pre-trained Transformer、日: 生成的事前学習変換器^[1]）とは、OpenAIによる言語モデルのファミリーのことである。通常、大規模なテキストデータのコーパスで訓練され、人間的な文章を生成する。

この記事は英語版の対応するページを翻訳することにより充実させることができます。（2025年3月）

翻訳前に重要な指示を読むには右にある[表示]をクリックしてください。

英語版記事を日本語へ機械翻訳したバージョン（Google翻訳）。
万が一翻訳の手がかりとして機械翻訳を用いた場合、翻訳者は必ず翻訳元原文を参照して機械翻訳の誤りを訂正し、正確な翻訳にしなければなりません。これが成されていない場合、記事は削除の方針G-3に基づき、削除される可能性があります。
信頼性が低いまたは低品質な文章を翻訳しないでください。もし可能ならば、文章を他言語版記事に示された文献で正しいかどうかを確認してください。
履歴継承を行うため、要約欄に翻訳元となった記事のページ名・版について記述する必要があります。記述方法については、Wikipedia:翻訳のガイドライン#要約欄への記入を参照ください。
翻訳後、{{翻訳告知|en|Generative pre-trained transformer|…}}をノートに追加することもできます。
Wikipedia:翻訳のガイドラインに、より詳細な翻訳の手順・指針についての説明があります。

Transformerアーキテクチャのデコーダー部分のみを使用し、Universal Language Model Fine-tuning(ULMFiT)と同じ言語モデルアプローチを採用している^[2]。テキスト生成、翻訳、文書分類など諸々の自然言語処理に合わせてファインチューニングできる。名称に含まれる"pre-trained"（事前訓練）とは、大量のテキストコーパスによる最初の訓練プロセスを指し、モデルは、各節に続く単語を予測するよう学習する。これによりもたらされる強固な基盤によって、各処理固有の下流処理が限定的なデータ量であってもモデルが適切に動作する。

GPT-1

2018年6月11日、OpenAIは"Improving Language Understanding by Generative Pre-Training"というタイトルの論文をリリースし、その中でGPT（Generative Pre-trained Transformer）を導入した^[3]。

この時点では最高のパフォーマンスを行うニューラル自然言語処理モデルは、主に手動でラベル付けされた大量のデータからの教師あり学習を採用していた。この教師あり学習への依存は、十分に注釈が付けられていないデータセットの使用を制限するだけでなく、非常に大規模なモデルの訓練に莫大な費用と時間がかかっていた^[3]^[4]。多くの言語（スワヒリ語やハイチ・クレオール語など）は、コーパス構築に使用できるテキストが不足しているため、このようなモデルを使用して翻訳や解釈をすることが難しい^[4]。これに対して、GPTの「半教師あり」アプローチには2つの段階が含まれていた。2つの段階は、言語モデリングの目的を使用して初期パラメータを設定する教師なし生成「事前訓練」段階と、これらのパラメータがターゲットとするタスクに適合された教師あり識別「ファインチューニング」段階である^[3]。

訓練には NVIDIA Quadro P600 を8枚30日使用し、実行効率33%のため、0.96ペタFLOPS・日となった。^[5]

Remove ads

GPT-4

→詳細は「GPT-4」を参照

2023年3月14日、OpenAI のGPT 基盤モデルである GPT-4 がリリースされた^[6]。ユーザーは ChatGPT のプレミアムバージョンを通じて直接アクセスでき、開発者は OpenAI の API を利用して他の製品やサービスに組み込むことができる。

GPT-5

→詳細は「GPT-5」を参照

2025年8月7日、OpenAIのGPTモデルであるGPT-5がChatGPT経由で無料ユーザーを含むすべてのユーザーに公開され、API経由でも利用が可能になった。以前のモデルより健康的な質問への返答の正確性向上、早いレスポンス、より少ないハルシネーション、創造的な文章制作能力などが向上した。

シリーズ一覧

→「OpenAI」も参照

さらに見る 名称, 用途 ...

名称	用途	アーキテクチャ	パラメータ数	訓練データ	リリース日
GPT-1	汎用	12-level, 12-headedのTransformerデコーダ（エンコーダなし）、linear-softmaxによりフォローされる。	1億1700万	BookCorpus：^[7] 様々なジャンルの7000冊の未発表書籍からの4.5GBのテキスト	000000002018-06-11-00002018年6月11日^[5]
GPT-2	汎用	GPT-1 + 正規化/初期化	15億	WebText（40GB）	000000002019-02-14-00002019年2月14日
GPT-3	汎用	GPT-2 + スパースアテンション	1750億^[8]	570GBのプレーンテキスト、4000億のトークン。主にCommonCrawl, WebText, English Wikipedia, および2つの書籍コーパス（Books1およびBooks2）.	000000002020-06-11-00002020年6月11日^[9]
Codex	プログラミング	GPT-3をプログラミング用途に調整	000000002021-08-10-00002021年8月10日^[10]
InstructGPT	会話	GPT-3を人間のフィードバックによる指示に従うよう微調整^[11]	2022年3月4日
GPT-3.5	汎用	非公開	非公開	非公開	000000002022-03-15-00002022年3月15日
ProtGPT2	タンパク質配列^[12]	GPT-2 large（36層）と同様	7億3800万	UniRef50からのタンパク質配列（計4488万、検証のために10%を使用した後）	000000002022-07-27-00002022年7月27日
BioGPT	生物医学のコンテンツ^[13]^[14]	GPT-2 medium（24層、16 heads）と同様	3億4700万	PubMedの空でない項目（計150万）	000000002022-09-24-00002022年9月24日
ChatGPT	会話	GPT-3.5を使用し、教師あり学習とRLHF^[15]の両方でファインチューニングされている（転移学習のアプローチ）^[16]	非公開	非公開	000000002022-11-30-00002022年11月30日
GPT-4	汎用、マルチモーダル^[17]	テキスト予測とRLHFの両方で訓練されている。詳細非公開^[18]	非公開	非公開	000000002023-03-14-00002023年3月14日