トップQs
タイムライン
チャット
視点
GPT-3
2020年の生成型言語モデル ウィキペディアから
Remove ads
GPT-3(ジーピーティースリー、Generative Pre-trained Transformer 3)は、2020年に発表された自己回帰型の言語モデルで、ディープラーニング(深層学習)により人間のようなテキスト(文章)を生成する。プロンプト(命令)として最初のテキストを与えると、そのプロンプトを継続するテキストを生成する。
アーキテクチャは、デコーダのみのTransformerネットワークで、2048トークン長のコンテキストと、1750億個のパラメータという前例のないサイズを持ち、保存するのに800 GBを必要とした。このモデルは、生成的な事前学習を用いて訓練され、以前のトークンに基づいて次のトークンが何であるかを予測するように訓練をされる。このモデルは、多くのタスクに対し、強力なゼロショット学習と少数ショット学習を実証した[2]。著者らは、自然言語処理(NLP)における言語理解性能が、GPT-nの『ラベル付与されていないテキストの多様なコーパスに対する言語モデルの生成的事前学習と、それに続く各特定タスクにおける識別的な微調整』のプロセスによって向上したことを説明した。これにより、人間による監督や、時間のかかる手作業でのラベル付けが不要になった[2]。
GPT-3は、サンフランシスコの人工知能研究所OpenAIが開発したGPT-2の後継で、GPTシリーズの第3世代の言語予測モデルである[3]。2020年5月に公開され、2020年7月にベータテストが実施されたGPT-3は[4]、事前学習言語表現による自然言語処理(NLP)システムにおけるトレンドの一翼を担った[1]。
GPT-3が生成するテキストの品質は、それが人間によって書かれたものであるかどうかを判断することは困難なほど高く、利点と危険性の両面があるとされる[5]。GPT-3を紹介する原論文は、2020年5月28日、31人のOpenAIの研究者と技術者が発表した。彼らは論文の中で、GPT-3の潜在的な危険性を警告し、その危険性を軽減するための研究を呼びかけた[1]:34。オーストラリアの哲学者デイヴィッド・チャーマーズは、GPT-3を『これまでに作られた最も興味深く、重要なAIシステムの一つ』と評した[6]。2022年4月のニューヨーク・タイムズ紙では、GPT-3の能力について、人間と同等の流暢さで独自の散文を書くことができると論評している[7]。
2020年9月22日、マイクロソフトは、GPT-3の『独占的な利用』を許諾したと発表した。他の企業が公開APIを使用して出力を受け取ることは引き続き可能だが、GPT-3の基礎モデルにアクセスできるのはマイクロソフトのみである[8]。
Remove ads
背景
→詳細は「GPT-2」を参照
エコノミスト紙によると、アルゴリズムの改良、強力なコンピューター、デジタル化されたデータの増加が、機械学習の革命を促進し、2010年代の新しい技術によって、言語の操作を含む『タスクの急速な改善』をもたらしたという[9]。ソフトウェアモデルは、『脳の神経アーキテクチャに大まかに基づいた構造』で、数千から数百万の事例を使用して学習するように訓練される[9]。自然言語処理(NLP)で使用されるアーキテクチャの1つは、2017年に初めて登場した深層学習モデルTransformerに基づくニューラルネットワークである。GPT-nモデルは、Transformerに基づく深層学習ニューラルネットワーク型のアーキテクチャである[10]。入力されたテキストを処理、マイニング、整理・結合し、対比し、質問に正しく答えることができるNLPシステムは多数存在する[11]。2018年6月11日、OpenAIの研究者と技術者は、データセットを介して膨大で多様なテキストのコーパスを用いて事前学習できる生成モデル(言語モデル、人工知能システム)に関する、彼らが生成的事前学習(generative pre-training、GP)と呼ぶプロセスの原論文を発表した[2]。著者らは、GPT-nで『ラベル付けされていない多様なテキストのコーパスを用いて言語モデルを生成的に事前学習し、その後、特定のタスクごとに識別的に微調整する』プロセスを通じて、自然言語処理(NLP)における言語理解の性能が向上したことを説明した。これにより、人間による監督や、時間のかかる手作業によるラベル付けが不要になった[2]。
2020年2月、マイクロソフトは、『170億個のパラメータを持つ、これまでに発表された最大の言語モデル』と主張するTuring Natural Language Generation(T-NLG)を発表した[12]。これは、テキストの要約や質問への回答を含む、さまざまタスクで、他のどの言語モデルよりも優れた性能を発揮した。
Remove ads
訓練と能力
要約
視点
GPT-3によって書かれた教育学に関する学生の小論の例
「学習スタイル」という概念は、学習スタイルが形成される過程を説明できない点で問題がある。ある学生は、特定の経験をしたために、特定の学習スタイルを身につけるかもしれない。別の学生は、自分の学習ニーズにあまり適していない学習環境に適応しようとすることで、特定の学習スタイルを習得するかもしれない。しかし最終的には、学習スタイルと環境および個人的要因との相互作用を理解し、それらがどのように私たちの学習方法や経験する学習の種類を形成するかを理解する必要がある。
2020年5月28日、OpenAIの31人の技術者と研究者のグループによるarXivの査読前論文で、第3世代の『最先端の言語モデル』であるGPT-3の開発について説明された[1][5]。チームは、GPT-3の容量をその前身のGPT-2[14]よりも2桁以上増やし、GPT-3をこれまでで最大の非スパース言語モデルにした。(補足: スパースモデルでは、パラメータの多くが定数に設定されているため、パラメータの総数が多くても、意味のある情報は少なくなる[1]:14[3]。)GPT-3は構造的に前身モデルと類似しているので、精度が向上したのは容量とパラメータ数の増加によると考えられる[15]。GPT-3の容量は、当時知られていた2番目に大きなマイクロソフトのTuring NLGの10倍になる[5]。
モデル
GPT-3のモデルアーキテクチャはGPT-2モデルのマイナーチェンジ版である[16]。アーキテクチャ上の変更点は以下の通り:
アーキテクチャはほぼ同一であるが、GPT-3はGPT-2より大きなモデルとなっている。モデル上の変更点は以下の通り:
- モデルパラメータサイズ: 1750億(dense等価で約10倍)[18]
- その他
データセット
GPT-3の重み付き事前学習データセットの60%は、Common Crawlのフィルタ処理された版から取得されたもので、4,100億バイト対符号化トークンで構成される[1]:9。その他の情報源としては、WebText2からの190億トークン(加重合計の22%)、Books1からの120億トークン(8%)、Books2からの550億トークン(8%)、Wikipediaからの30億トークン(3%)がある[1]:9。
学習
能力
GPT-3は数千億個の単語で訓練されており、CSS、JSX、Pythonなどのプログラミング言語でコーディングすることも可能である[4]。GPT-3の学習データはすべてを網羅しているため、個別の言語タスクのために訓練を追加する必要はない[4]。この学習データにはときどき有害言語が含まれており、GPT-3は学習データを模倣した結果、有害言葉を発生することがある。ワシントン大学の研究によると、GPT-3は、同様の自然言語処理モデルであるGPT-2やCTRLと同程度の毒性基準で有毒言語を生成することがわかった。OpenAIは、GPT-3が生成する有毒言語の量を制限するために、いくつかの戦略を実装した。その結果、GPT-3は、前身モデルであるGPT-1よりも有毒言語の生成が少なくなったものの、Wikipediaのデータのみで学習した言語モデルであるCTRL Wikiよりも有毒言語は生成が多く、毒性基準も高かった[19]。
2020年6月11日、OpenAIは、ユーザーがこの新しい技術の『長所と限界を探る』ために、使いやすいGPT-3 API『機械学習ツールセット』へのアクセスを要求できることを発表した[20][21]。招待状には、このAPIは、通常の単一のユースケースではなく、ほぼ「あらゆる英語のタスク」を完了できる汎用的な『テキスト入力、テキスト出力』型のインターフェースを備えていると説明されている[20]。OpenAI GPT-3 APIの非公開の早期リリースにアクセスしたあるユーザーによると、GPT-3は、いくつかの簡単なプロンプトだけで『驚くほど意味の通ったテキスト』を書くことができ、『不気味なほど優秀』だったという[22]。最初の実験では、米国の80名の被験者に、200語程度の短い記事が人間によって書かれたものか、GPT-3によって書かれたものかを判断するように求められた。その結果、被験者は52%の確率で正しく判断し、ランダムに推測するよりもわずかに優れていた[1]。
2021年11月18日、OpenAIは、APIに無制限にアクセスできるように保護手段を実装したことを発表した[23]。OpenAIは、開発者がOpenAIのコンテンツポリシーを順守するのに役立つコンテンツモデレーションツールを提供した[24]。2022年1月27日、OpenAIは、InstructGPTと総称される最新のGPT-3言語モデルが、同社のAPIで使用されるデフォルトの言語モデルになることを発表した。OpenAIによると、InstructGPTは、より適切に指示に従うことで、よりユーザーの意図に沿ったコンテンツを生成し、でっち上げの事実を減らし、有害なコンテンツをいくらか少なくできるとされた[25]。
GPT-3は、『人間の評価者が人間が書いた記事と区別するのが難しいニュース記事を生成できる[5]』ため、GPT-3には『言語モデルの有益な応用と有害な応用の両方を進める可能性がある』と評される[1]:34。2020年5月28日の論文で、研究者らは『GPT-3が潜在的にもつ有害作用』について詳細に説明した[5]。それには『誤った情報、スパム、フィッシング、法律や政府のプロセスの悪用、不正な学術論文の作成、ソーシャルエンジニアリングの口実』が含まれている[1]。著者らは、これらの危険性への注意を喚起し、リスクを軽減するための研究を呼びかけた[1][26]:34。
GPT-3は、ゼロショット、少数ショット、ワンショットの学習を行うことができる[1]。
2022年6月、Almira Osmanovic Thunströmは、GPT-3が自身に関する論文の主な著者であり、発表のために投稿し[27]、査読を待っている間に事前公開されたと記した[28]。
Remove ads
モデル
反応
要約
視点
応用
- GPT-3、特にCodexモデルは、さざまざなコードエディタやIDEで使用できるコード補完および生成ソフトウェア「GitHub Copilot」の基盤となっている[31][32]。
- マイクロソフトの特定の製品では、従来の言語を公式なコンピュータコードに変換するために、GPT-3が使用されている[33][34]。
- GPT-3は、CodexDB[35]で、SQL処理用のクエリ固有のコードを生成するために使用されている。
- GPT-3は、Jason Rohrerによる「Project December」というレトロなテーマのチャットボットプロジェクトで使用されている。このプロジェクトはオンラインでアクセス可能で、ユーザーはGPT-3の技術を使用してさまざまなAIと会話することができる[36]。
- ガーディアン紙において、AIは人間に無害であるという記事を書くためにGPT-3が使用された。いくつかのアイデアを与えられ、8つの異なるエッセイを作成し、最終的に1つの記事に統合された[37]。
- テキストベースのアドベンチャーゲームを生成するAI DungeonでGPT-3が使用された。その後、OpenAIが生成コンテンツに関するポリシーを変更したため、競合するモデルに置き換えられた[38][39]。
- スタートアップ企業のCopy.ai[40]、Jasper.ai[41]、TextCortex AI[42]およびHypotenuse AIによって[43]、コピーやその他のマーケティング資料の作成を支援するためにGPT-3が利用されている。
- ドレクセル大学による2022年の研究では、GPT-3ベースのシステムが、アルツハイマー病の初期兆候のスクリーニングに使用できることが示唆された[44][45]。
論評
- ニューヨーク・タイムズ紙のレビューで、Farhad Manjooは、コンピュータコード、詩、散文を生成するGPT-3の能力は、単に「驚くべき」「不気味」「謙虚」だけでなく『少しばかり恐ろしい』と述べている[46]。
- Daily Nousは、9人の哲学者によるGPT-3に関する一連の記事を紹介した[47]。オーストラリアの哲学者David Chalmersは、GPT-3を『これまでに作られた中で最も興味深く、重要なAIシステムの1つ』と表現した[6]。
- WIREDは、GPT-3が『シリコンバレー全体に悪寒を引き起こした』と述べた[48]。
- The National Law Reviewは、GPT-3は『より大きなプロセスにおける印象的な一歩』であり、OpenAIや他の企業は『より汎用的な知能を目指す」取り組みを続けながら、『この力のすべてに有用な応用』を見つけていると述べている[49]。
- MITテクノロジーレビューの記事で、共同執筆したディープラーニング評論家のGary Marcusは[50]、GPT-3の『世界の理解はしばしば深刻にずれており、GPT-3の言うことは決して信用できない』と指摘した[51]。著者らによると、GPT-3は、各単語の背後にある意味を理解せずに、単語間の関係をモデル化しているという。
- Facebook AIラボの責任者であるJerome Pesentiは、GPT-3は『安全ではない』と述べ、ユダヤ人、女性、黒人、およびホロコーストについて議論するよう求められたときに、システムが生成した性差別、人種差別、およびその他の偏見のある否定的な言葉を指摘した[52]。
- 医療技術を専門とするフランスのスタートアップ企業のNablaは、OpenAI自身がそのような使用に対して警告を発していたにもかかわらず、GPT-3を医療用チャットボットとしてテストした。予想通り、GPT-3にはいくつかの限界があった。たとえば、メンタルヘルスの問題についてGPT-3の応答をテストしていたとき、AIは模擬患者に自殺するよう勧めた[53]。
- ノーム・チョムスキーは、GPT-3の科学的価値について次のような懐疑的な見方を示した。『これは言語モデルではない。不可能な言語に対しても、実際の言語に対しても同様に機能する。したがって、もし言語モデルとして意図されてたものであるならば、通常の科学的基準によって反論される。(中略)おそらく、何らかの目的には有用かもしれないが、言語や認知一般については何も教えてくれないようだ』[54]。
- ルチアーノ・フロリディとMassimo Chiriattiは、『良質で意味深い人工産物を安価に生産する』ことの危険性を強調した[55]。
- OpenAIのSam Altman自身は、彼が『GPT-3誇大広告』と呼ぶものを批判し、GPT-3には『深刻な弱点があり、時には非常に愚かな間違いを犯す。AIは世界を変えようとしているが、GPT-3はごく初期を垣間見るに過ぎない。』と認めている[56]。
批判
GPT-3の構築者であるOpenAIは、もともと、2015年に非営利法人として設立された[57]。2019年、OpenAIは、このモデルがフェイクニュース(虚偽報道)を永続させるという懸念を挙げて、それまでのオープンソースの慣習を破り、GPT-3の前身モデルを公開しなかった。OpenAIは最終的に、オリジナルなモデルの8%のサイズのGPT-2を公開した[58]。同年、OpenAIは営利企業となるため再編成された[59]。2020年、マイクロソフトは、OpenAIへ数十億ドルを投資し、マイクロソフトの製品とサービス向けにGPT-3の独占的ライセンスを取得したと発表した。この契約により、OpenAIは公開APIを提供し、ユーザーはGPT-3にテキストを送信してモデルの出力を受け取ることができるが、GPT-3のソースコードにアクセスできるのはマイクロソフトのみとなる[8]。
GPT-3のような大規模な言語モデルは、Googleの一部のAI倫理研究者から、モデルの訓練と保存が環境に与える影響についての批判を受けており、2021年にTimnit GebruとEmily M. Benderが共著した論文で詳述されている[60]。
GPT-3やその他の言語ジェネレーターに基づく自動文章作成技術の使用が増加していることから[いつ?]、学問的誠実性に関する懸念が高まり[61]、大学や学校が何をもって剽窃(ひょうせつ、盗作)などの学問的不正行為とみなすのかという問題が生じている[62]。GPTは、12年間に6,000万ドメインから収集された著作権保護された記事、インターネット上の投稿、ウェブページ、書籍のコレクションであるCommon Crawlデータセットのデータを用いて構築された。TechCrunchによると、この学習データにはBBC、The New York Times、Reddit、オンライン書籍の全文などの著作物が含まれているという[63]。OpenAIは、米国特許商標庁(USPTO)からの「人工知能イノベーションの知的財産保護に関する2019年のコメント要請」に対する回答で、『現行法のもとでは、(GPTモデルなどの)AIシステムの訓練は公正利用に合致する』と主張したが、『この点に関する適切な判例がないことから、OpenAIや私たちのような他のAI開発者は、かなりの法的不確実性とコンプライアンス・コストに直面している』と述べている[64]。
Remove ads
GPT-3.5
沿革
- 2022年3月15日、OpenAIは、GPT-3とCodexのAPIに、編集と挿入機能を持たせた新しいバージョンを「text-davinci-002」および「code-davinci-002」という名前で公開した[65]。これらのモデルは、以前のバージョンよりも高性能であると説明され、2021年6月までのデータを用いて訓練された[66]。
- 2022年11月28日、text-davinci-003を公開[67]。
- 2022年11月30日、OpenAIはこれらのモデルを「GPT-3.5」シリーズに属すものとし[68]、GPT-3.5シリーズのモデルを微調整したChatGPTをリリースした[69]。
- 2023年6月13日、gpt-3.5-turbo-16k と関数呼び出し(function calling)を追加した[70]。関数呼び出し(function calling)により、ChatGPT のプラグインのようなことが ChatGPT の外で実行できるようになった。
モデル
5種類のモデルがある[72]。
Remove ads
参照項目
- BERT (言語モデル) - Transformerアーキテクチャに基づく言語モデルの一種
- Generative pre-trained transformer - 大規模なテキストデータで学習し、人間に近いテキストを生成する言語モデル
- LaMDA - Googleが開発した会話型ニューラル言語モデルのファミリー
- 自然言語処理(NLP) - 自然言語データに対するコンピュータ処理に関する学際的な分野
- ChatGPT - OpenAIによるGPTファミリー上に構築されたチャットボット
- ハルシネーション (人工知能) - 人工知能モデルによる学習データで正当化されない欺瞞的な応答
脚注
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads