Stable Diffusion

画像生成機械学習モデル ウィキペディアから

Stable Diffusion

Stable Diffusion(ステイブル・ディフュージョン)は、2022年に公開されたディープラーニング(深層学習)のtext-to-imageモデル英語版である。主にテキスト入力に基づく画像生成(text-to-image)に使用されるが、他にもインペインティング英語版: inpainting)、アウトペインティング(: outpainting)、テキストプロンプトによって誘導される画像に基づく画像生成(image-to-image)にも使用される[4]

概要 開発元, 初版 ...
Stable Diffusion
Thumb
「乗馬する宇宙飛行士の写真[注 1]」と指定して出力された画像
開発元
初版 Template:Released
最新版
SD 3.5 (モデル)[2] / 2024年10月22日 (6か月前) (2024-10-22)
リポジトリ github.com/Stability-AI/stablediffusion
プログラミング
言語
Python[3]
対応OS CUDAカーネル英語版をサポートしている任意のOS
対応言語 多数言語
対応言語一覧
日本語・英語など。
サポート状況 サポート中です。
種別 text-to-imageモデル英語版
ライセンス Creative ML OpenRAIL-M・ Stability AI Community License
公式サイト stability.ai
テンプレートを表示
閉じる

Stable Diffusionは、ミュンヘン大学のCompVisグループが開発した潜在拡散モデル(: latent diffusion model)であり、深層生成ニューラルネットワーク: deep generative neural network)の一種である[5]。このモデルは、EleutherAILAIONの支援を受け、Stability AI、CompVis LMU、Runwayの三者が共同で公開した[6][1][7]。2022年10月、Stability AIは、Lightspeed Venture Partners英語版Coatue Management英語版が主導するラウンドで1億100万米ドルを調達した[8]

Stable Diffusionのコードとウェイトは一般に公開されており[1]、少なくとも8GBのVRAMを持つGPUを搭載したほとんどの消費者向けハードウェアで実行可能である。そのため、DALL-EMidjourneyなど、クラウドサービス経由でのみアクセス可能だった従来のプロプライエタリなtext-to-imageモデルとは一線を画すものであると評されている[9][10]

Stable Diffusionは、教師データを確保するためにインターネット上から何十億もの画像をスクレイピングしているが、その画像の大半は著作権で保護されており、収集・利用に際して同意を得ているわけではないため、著作権法に違反するのかどうか、フェアユースに該当するのかどうか、倫理的に適切であるのかといった法的・倫理的な論争が生じており、提供元のStability AIに対して複数の訴訟が提起されている[11]

技術

要約
視点
Thumb
Stable Diffusionのアーキテクチャ。

アーキテクチャ

Stable Diffusionは、拡散モデル: diffusion model、DM)の一種である潜在拡散モデル(: latent diffusion model、LDM)を使用している[1]。2015年に登場した拡散モデルは、学習元の画像に連続的に付与されたガウシアンノイズを除去する目的で学習されており、デノイジング・オートエンコーダ: denoising autoencoder)のシーケンスとして考えることが可能である。

Stable Diffusionは、変分オートエンコーダ: variational autoencoder、VAE)、U-Net、およびオプションのテキストエンコーダの3つによって構成されている[12]。VAEは、画像をピクセル空間からより低次元の潜在空間英語版: latent space)へと圧縮し、画像のより基本的な意味を捕らえる[13]。圧縮された潜在表現(: latent representation)には、順方向拡散過程(: forward diffusion process)の際にガウシアンノイズが連続的に付与される[12]ResNetで構成されるU-Netブロックは、潜在表現を得るために順方向拡散過程の出力をデノイズ(ノイズを除去)する。この過程を逆方向拡散過程(: reverse diffusion process)という。最後に、VAEデコーダが潜在表現をピクセル空間へ逆変換し、最終的な画像を生成する[12]

デノイズの過程は、文字列・画像・その他のモダリティによって柔軟に条件づけることが可能である。エンコードされた条件づけのためのデータは、cross-attention機構によってDenoising U-Netに与えられる[12]。テキストによる条件づけの場合、学習済みの固定的なCLIP ViT-L/14テキストエンコーダを使用して、テキストプロンプトが埋め込み空間へ変換される[1]。研究者らは、LDMの利点として、学習と生成のための計算効率の向上を挙げている[14][15]

学習データ

Stable Diffusionは、LAION-5Bから取得した画像とキャプションのペアから学習している。これは、ウェブ上から収集されたコモン・クロールのデータから派生した一般に利用可能なデータセットである。50億枚の画像とテキストのペアが言語に基づいて分類されており、解像度、電子透かしを含んでいる可能性の尤度、および「美学スコア」(: aesthetic score)の予測に基づいて別々のデータセットにフィルタリングされている[16]。このデータセットは、Stability AIから資金提供を受けているドイツの非営利団体LAIONによって作成されたものである[16][17]。Stable Diffusionモデルは、LAION-5Bの3つのサブセット(laion2B-en、laion-high-resolution、laion-aesthetics v2 5+)から学習している[16]。このモデルの学習データを第三者が分析したところ、使用したオリジナルの広いデータセットから抽出した1200万枚の画像のうち、サンプルサイズの約47%が100の異なるドメインから取得された画像であり、Pinterestがサブセットの8.5%を占め、WordPressBlogspotFlickrDeviantArtウィキメディア・コモンズなどのウェブサイトがそれに続いていることが確認されたという[18][16]

学習プロセス

このモデルは、最初に「laion2B-en」と「laion-high-resolution」から学習し、最後の数回に「LAION-Aesthetics v2 5+」から学習している。「LAION-Aesthetics v2 5+」は、LAION-Aesthetics Predictor V2が、人間に対してどの程度(その画像が)好きかを尋ねたときに、平均して10点中5点以上をつけると予測した6億枚のキャプション付き画像のサブセットである[19][16][20]。「LAION-Aesthetics v2 5+」サブセットは、低解像度の画像、およびLAION-5B-WatermarkDetectionが80%以上の確率でウォーターマークを検出した画像が除外されている[16]。最後に行われた学習では、Classifier-Free Diffusion Guidanceを改善するために、さらにテキストの条件づけ(キャプション)が10%削除された[21]

このモデルの学習には、AWS上の256個のNVIDIA A100英語版が使用され、60万米ドルの費用と合計15万のGPU時間が費やされた[22][23][24]

制限

Stable Diffusionには、特定の条件下における劣化や不正確さなどの問題がある。このモデルの初期バージョンは、512×512の解像度の画像からなるデータセットで訓練されたため、512×512以外の解像度を指定すると、生成される画像の品質が低下する場合がある[25]。バージョン2.0では、768×768の解像度で画像をネイティブに生成する機能が導入され、[26]。バージョンXL1.0では、1024×1024の解像度で画像をネイティブに生成する機能が導入された[27]。もう一つの課題は、LAIONデータセットにおける四肢のデータ品質が低いため、人間の手足の生成に支障が見られることである[28]。データセットには代表的な特徴がないため、人間の手足や顔を理解するための学習が不十分となっており、そのような画像の生成を指示すると、モデルが混乱してしまうのである[29]。人間の手足だけでなく、動物の四肢の生成も困難であることが確認されており、馬の画像を生成しようとすると25%の確率で失敗するという[30]

また、個人開発者のアクセシビリティも問題となっている。アニメキャラクターの生成(waifu diffusion)[31]など、データセットに含まれていない新しいユースケースに対してモデルをカスタマイズするには、新たな学習データと訓練が必要である。しかし、この微調整プロセスは、新しいデータの品質に影響を受けやすい。低解像度の画像や、元の学習データと異なる解像度の画像は、新しいタスクを学習できないだけではなく、モデル全体のパフォーマンスを低下させる可能性がある。また、高品質な画像でモデルを追加学習させたとしても、一般的な消費者向けのコンピュータでモデルを動かすことは困難である。たとえば、waifu-diffusionの学習プロセスには最低でも30GBのVRAMが必要であるが[32]、一般的な消費者向けのGPU、たとえば、NVIDIAGeForce 30シリーズのVRAM容量(約12GB)[33]を優に超えており、一般人が利用可能な通常のリソースを超えている。

Stable Diffusionの開発者は、(このモデルは)主に英語の説明文が付与されている画像で学習したため、アルゴリズムバイアスが生じる可能性があることを認めている[23]。開発者は、他のコミュニティや文化圏からのデータが不足していると指摘しており、その結果、生成される画像は、西洋の視点に立っており、社会的偏見を助長させるものとなっているという。また、他の言語で書かれたプロンプトよりも、英語で書かれたプロンプトの方がより正確な画像が生成され、西洋(または白人)の文化がデフォルトの表現となることが多いという[23]

機能

要約
視点

Stable Diffusionモデルは、出力に含まれる要素、あるいは含まれない要素を記述するテキストプロンプトを入力することによって、ゼロから新しい画像を生成する機能を備えている[1]。また、既存の画像を与えることも可能であり、diffusion-denoising機構によって、テキストプロンプトに記述された新しい要素を取り込んで再描画することができる(たとえば、guided image synthesis[34]など)[1]。さらに、インペインティング英語版: inpainting)とアウトペインティング(: outpainting)によって既存の画像を部分的に変更することも可能であり、多くの異なるオープンソースの実装が存在する[35]

Stable Diffusionは、10GB以上のVRAMでの動作が推奨されているが、VRAMが少ない場合は、デフォルトのfloat32ではなくfloat16の精度でウェイトを読み込むことができる。ただし、モデルの性能とVRAM使用量はトレードオフの関係にある[25]

テキストに基づく画像生成(text-to-image)

Thumb
Thumb
Thumb
画像生成におけるネガティブプロンプトの影響。
  • 上段: ネガティブプロンプトなし
  • 中段: "green trees"
  • 下段: "round stones, round rocks"

テキストから画像を生成するサンプリングスクリプトは、「txt2img」(text-to-imageやt2iとも言う)として知られている。これには、テキストプロンプトに加え、サンプリング方式、出力画像の解像度、シード値英語版などのさまざまなオプションのパラメータが使用される。このスクリプトは、プロンプトに対するモデルの解釈に基づいて画像ファイルを出力する[1]。生成された画像には、Stable Diffusionによって生成された画像であることをユーザーが識別できるように、目に見えない電子透かしが付与されるが[1]、画像のサイズを変更したり回転したりすると効力を失う[36]

各txt2imgの生成には、出力画像に影響を与える特定のシード値が含まれる。ユーザーは、さまざまな出力を探るためにシード値をランダムにするか、以前に生成された画像と同じ出力を得るために同じシード値を使用するかを選択できる[25]。また、サンプラーの推論ステップ数を調整することも可能である。値を大きくすると生成に時間がかかり、値を小さくすると視覚的な瑕疵が生じる可能性が生じる[25]。CFGスケール(: classifier-free guidance scale)の値を調整することで、出力画像がプロンプトに対してどれだけ忠実であるかを調整することも可能である[21]。実験的なユースケースには低いスケール値を使用したり、具体的な出力を得ることが目的のユースケースには高い値を使用したりできる[25]

その他のtxt2imgの機能は、Stable Diffusionのフロントエンド実装によって提供される。これには、テキストプロンプトの特定の部分に与えられる重みを調整する機能が含まれる。強調マーカーは、キーワードを括弧で囲むことによって、そのキーワードを強調したり、抑制したりできる[37]。プロンプトの部分的な重みを調整する別の方法として、「ネガティブプロンプト」(: negative prompt)と呼ばれる機能がある。ネガティブプロンプトは、いくつかのフロントエンド実装に含まれる機能であり、画像生成時にモデルが避けるべきプロンプトをユーザーが指定できる。この機能を使用することで、ユーザーによって指定されたポジティブプロンプト(: positive prompt)によって(あるいはモデルが元々どのように訓練されたかによって)出力画像内に存在することになる望ましくない画像の特徴を指定・排除できる[35]

画像に基づく画像生成(image-to-image)

Thumb
Thumb
画像生成におけるimg2imgの影響。
  • 上段: Stable Diffusion 1.5で作成したオリジナル画像
  • 下段: Stable Diffusion XLで作成した修正画像

Stable Diffusionには、「img2img」(image-to-imageやi2iとも言う)として知られているもう一つのサンプリングスクリプトがある。これには、テキストプロンプト、既存の画像のパス、0.0から1.0までの強度値が使用される。このスクリプトは、テキストプロンプトで指定された要素を含む、オリジナルの画像に基づいた新しい画像を出力する。強度の値は、出力画像に加えられるノイズの量を表している。強度の値が高いほど画像内に新しい要素が増えるが、指定されたプロンプトと意味的に一致しない画像が生成される可能性がある[1]

img2imgは、元画像にノイズを加えることができるため、画像データの視覚的特徴を変化させて匿名化する、データ匿名化英語版データ拡張英語版に有効である可能性がある[38]。また、画像の解像度を上げ、より詳細な情報を画像に加えるアップスケーリングにも利用できる可能性がある[38]。さらに、Stable Diffusionは、画像圧縮のツールとしても実験されている。JPEGWebPと比較すると、Stable Diffusionの画像圧縮で使用されている近年の方法は、小さな文字や顔を保存するのに限界がある[39]

img2imgを使用した画像修正のユースケースは、Stable Diffusionモデルの多くのフロントエンド実装によって提供されている。インペインティング英語版: inpainting)は、ユーザーが提供するマスクレイヤーで区切られた既存画像の一部を選択的に変更するものであり、指定されたプロンプトに基づいて新たに生成されたコンテンツでマスク空間を埋めるものである[35]。Stable Diffusion 2.0のリリースに伴い、インペインティング用途に特化して微調整された専用モデルがStability AIによって作成された[26]。また、インペインティングとは逆のことを行うアウトペインティング(: outpainting)という機能もあり、画像を元の解像度以上に拡張し、指定されたプロンプトに基づいて生成されたコンテンツで拡張された空白の部分を埋めることもできる[35]

2022年11月24日にリリースされたStable Diffusion 2.0では、「depth2img」と名付けられたdepth-guidedモデルが導入された。このモデルは、提供された入力画像の深度を推測し、テキストプロンプトと深度情報の両方に基づいて新しい画像を生成するものであり、入力画像の一貫性と深度を出力画像に維持させることができる[26]

リリース

さらに見る バージョン, リリース日 ...
バージョン リリース日 備考
1.1, 1.2, 1.3, 1.4[23] 2022年8月 CompVisがリリース。"version 1.0" は存在しない。 1.2は1.1の、1.3と1.4は1.2のplus版である[40]
1.5[41] 2022年10月 RunwayMLがリリース。1.4ではなく、1.2の重みを初期化。
2.0[42] 2022年11月 フィルタリングされたデータセットを用いて、ゼロから再学習された[43]
2.1[44] 2022年12月 2.0の重みを初期化。
XL 1.0[45][46] 2023年7月 パラメーター数は35億で、前バージョンの3.5倍ほどになった[47]
XL Turbo[48] 2023年11月 新たな蒸留技術により、ステップ数を削減[49][50]
3.0[51][52] 2024年2月(初期プレビュー) パラメーター数が8億から80億までの、複数のモデルからなる[53]
閉じる

用途と論争、訴訟

要約
視点

著作権

Stable Diffusionは、生成された画像に関する権利を主張しておらず、画像の内容が違法であったり、個人に有害でない限り、モデルから生成されたあらゆる画像の使用権をユーザーに自由に与えている。Stable Diffusionと他の生成モデルは、著作権のある画像から権利者の同意なしに学習を行っているため、画像の使用に関してユーザーに提供される自由について、所有権の倫理をめぐる論争が引き起こされている[54]

ジャーナリストナオミ・クラインは生成AI技術と関連企業を厳しく批判しており、「人類史上最大の盗み」「囲い込みと横領を行う機械」であるとしており、「個人的な生および集合的な知的・芸術的遺産の双方を食い物にし、私有化する」としている。つまり、AI企業はインターネット上に公開された人類の知識全体を、製品の中に囲い込んで専売しており、人々の生涯をかけた労働が同意や許可を得ずに、訓練データに使われているというのである。クラインは以下のように述べた[55]

こんなことが合法であるはずがない。AIモデルを訓練するのに使われたことが判明している著作権保護の素材(この『ガーディアン』紙も含まれる)に関しては何件もの訴訟が申請されており、明白に違法な行為が行われたという主張がそこでなされるだろう。例えば、営利企業が生身の芸術家たちの絵画や写真をStable DiffusionやDALL-E 2のようなプログラムに注ぎ込み、それを使ってまさにその芸術家たちの作品のドッペルゲンガー版を作成できるようにするなどということが、いったいどうして許されるのだろうか?その利益が芸術家たち自身にだけは還元されないというのに?[55]

日本における著作権問題

Stable Diffusionの登場に関連して、日本においては2018年に成立した改正著作権法が問題視されている。この30条4項では人工知能の訓練データに文章や画像を利用する場合に、営利・非営利を問わず著作物を利用できることを定めており、先進国で最も緩い法規制の枠組みになっている。「著作権者の利益を不当に害する場合」は利用できないとしているが、その具体的にどのようなケースに該当するかは不明瞭である。法改正に当たっては一部の弁護士や大学教授らで構成されたワーキングチームが主導したが、そのリスクは十分に十分に説明されなかった。『読売新聞』の取材によれば、権利者団体から権利侵害を前提としたビジネスモデルへの懸念が示されたが、ワーキングチームはリスクは「ゼロか軽微」と説明した[56]

この著作権法の規定に多くの漫画家イラストレーター音楽家俳優芸能人出版社が懸念を示しており、俳優や音楽家らで結成された日本芸能従事者協会はアンケートを実施し、94.1%がAIによる権利侵害に懸念を示し、「創作者の尊厳が軽んじられないような法制度」を求める意見などが表明された。日本音楽著作権協会も、「営利目的で行われる情報分析サービスまで権利制限の対象とすることは不当」であると主張した。主要な出版社で作る日本書籍出版協会、学術論文の著作権を管理する学術著作権協会も改正当時は生成AIを前提とした説明が行われなかったと回答している[56]

データ倫理

ウェブ上の画像のスクレイピング

ハーバード・ビジネス・レビュー』は、ネット上に公開された無数の著作物を訓練データとして利用するStable Diffusionをはじめとする現行の画像生成AIについて、知的財産権を侵害している可能性があるとして、潜在的な法的リスクを指摘している。そして、訓練データが権利者のライセンスを受けていることが望ましく、生成されたコンテンツの出所を示す手段が必要であるとしている[57]

開発企業はアーティストの権利を尊重すると称して、著作物を訓練データから除外するためのオプトアウトの申請を受け付けている。しかし『ハーバード・ビジネス・レビュー』は、このオプトアウトは知的財産権を保護する責任を権利者に押し付けているとして、オプトアウトよりもオプトインが適切であると批判している[57]

芸術家らは、Stable Diffusionのような画像生成ソフトが普及すると、写真家・モデル・撮影監督・俳優といった人間の芸術家が、AIを使用した競合他社に対して徐々に商業的価値を失っていくのではないかという懸念を表明している[58]。『名探偵ピカチュウ』のクリーチャー・デザインに携わったR・J・パーマーは、Stable Diffusionが多くの現役クリエイターの作品を学習データに取り込んでおり、潜在的に彼らの仕事を奪いかねず権利侵害にあたると非難している[59]。DALL・E 2など他の画像生成サービスは、現代の風景写真家の作品を学習データから排除するなど、クリエイターとの協調関係に配慮を見せている[60]

2023年1月13日、オレゴン州在住の漫画家サラ・アンダーソンら3人の原告はAIアートの違法性を訴え、Stability AIとStable Diffusionを利用した画像生成サービスを展開するMidjourneyDeviantARTの3社に対して訴訟を提起した。画像生成AIは、教師データを確保するためにインターネット上から何十億もの画像をスクレイピングしているが、その画像の大半は著作権で保護されており、同意も得ていないため、画像生成AIには倫理的・法的問題が生じている。アンダーソンは『ワシントン・ポスト』紙の取材に対し、「AIは私の作品を盗んだ」と答えた一方、Stability AI、Midjourney、DeviantARTの3社はいずれも取材を拒否した[11][61]

計算機科学者でプリンストン大学教授のアーヴィンド・ナラヤナン英語版は、「画像生成AIを開発する企業は同意や補償なしに訓練用画像を収集するなど、アーティストに敵対するような方法で開発・デプロイを行っている」とした上で、「特定のアーティストの画風に寄せた画像生成ツールを許容することは、アーティストの労働や視覚的な独自性を明確に流用しているケースのように思える」と述べ、「開発者は、アーティストを訓練用の素材ではなく、パートナーや利害関係者として扱うこともできたはずだ」と画像生成AIの現状に異を唱えた上で、「この現状が必然だったと主張する人物は、企業が責任ある技術開発をできなかったことの言い訳をしているに過ぎない」と結論付けた[11]

2023年4月3日、東京大学は理事・副学長の太田邦史の署名付き文章で、全学生・教員向けにMidjourney、Stable Diffusion等の生成AIの利用に関する注意喚起を行った。画像生成AIが、インターネット上のコンテンツを取り込んで学習し、画像を生成しており、これらの元データの作成者が知らないうちに著作権を侵害されたとして、問題提起を行っている現状を指摘。将来的に画像生成AIが生み出したコンテンツが訴訟の対象になる可能性に言及した[62]

Stable Diffusionの訓練データの収集方法については「データ・ロンダリング」がなされているとの批判を受けている。つまり、提供会社が直接データを収集・利用するのではなく、非営利の研究機関を間に挟むことで、「研究目的」として著作物を収集することができ、著作物の使用に対する対価を払うことなく、商用利用を行っているとされる[63]

Stable Diffusionなどの画像生成AIが抱える倫理的・法的問題に対して、Adobeは独自の画像生成AIのFireflyをリリースした。これはパブリックドメイン、オープンライセンスおよびAdobe Stockの画像を訓練データとして利用しており、知的財産権を巡る問題を大幅に軽減している。Nvidiaも独自の生成AIであるNvidia Picassoをリリースしたが、著作権者に正当な使用料を支払っているとしている[64][65][66]

電子フロンティア財団の弁護士のキット・ウォルシュは、ウェブから画像をスクレイピングする行為について、ある行為が著作権侵害になる可能性があっても、その行為が非侵害的使用を行う上で不可欠なステップである場合、その行為自体はフェアユースに該当する傾向にあることを指摘している[67]。そのため、中間的な使用と分析のための使用の双方において、スクレイピングが著作権法に違反するとは考えにくいという[67]。また、Stable Diffusionは訓練画像を圧縮(保存)していると批判されているが、Stable Diffusionのモデルは50億枚以上の画像に4GB分の観察情報(ピクセル配置とテキスト注釈の単語との相関に関する情報)を保存しているにすぎないため、分析した画像1枚につき1バイト以下の情報しか含まれておらず、数学的にはStable Diffusionは訓練画像の複製を保存しているわけではないと述べている[67]。そして、「15000行の大作を10行にまとめたものは二次的著作物ではなく、書籍を説明するための要約も大半が二次的著作物ない」ことや訓練セットに含まれる各画像から抽出された著作権で保護されうる表現の量は、「侵害と認定するにはあまりにも小さい」(デ・ミニミス)とみなされる可能性があることなどから、Stable Diffusionは侵害的な二次的著作物を生成・保存していないと指摘している[67]

出力画像の生成

英国ストックフォト企業であるGetty Imagesも画像生成AIが膨大な量の画像を盗用し、知的財産権を侵害しているとしてStability AIへの損害賠償請求訴訟を提起した。画像生成AIはアーティストの知的財産である作品をベースに画像を生成するが、その作品の作者には補償されないし、著作権者の許可も得ていないことが問題視されている[68]

電子フロンティア財団の弁護士のキット・ウォルシュは、プライバシー関連の研究[69]から「拡散モデルが訓練データ中の画像を再現できるような情報を保存する可能性は、当該画像が訓練中に何度も複製された場合にはわずかながらある」としながらも、「訓練データ中の画像が出力される確率は、たとえその出力を引き出すために特別にしつらえたプロンプトをもってしても、文字通り100万分の1以下の確率である」と述べている[67]。そのため、著作権を主張できる権利者は訴訟の原告らが含まれるとは考えにくく、また、仮に侵害の責任を負うとすれば、それは既存のクリエイティブ・ツールと同じようにツールの製造者や提供者ではなく、ユーザーになるだろうという見解を示している[67]

ディープフェイク等の問題

Stable Diffusionは生成AIに基づく他の商業製品と比べて、ユーザーが生成できるコンテンツの種類(暴力や性描写など)に寛容であることが特徴的である[70]。Stability AIのCEOであるEmad Mostaqueは、このモデルが悪用されるのではないかという懸念に対して、「この技術の用途が倫理的・道徳的・合法的であるかどうかはユーザーに責任がある」と説明し[10]、潜在的にはマイナスの影響もあるが、Stable Diffusionの機能を一般人の手に委ねることは、この技術が純粋な利益を提供することにつながると述べている[10]。さらに、Stable Diffusionをオープンにした背景には、クローズドな画像合成AIシステムしか開発してこなかった企業による、このような技術に対する支配と統制を終わらせる意図があると述べている[10][70]。この理念は、Stable Diffusionが学習済みのウェイトとともにオープンソースとして公開されているために、ユーザーが生成するコンテンツにStability AIが課す成約を容易に回避できるという事実にも反映されている[54][71][1]

また、Discordサーバーを通じて使えるStable Diffusionのホストバージョンは、他の画像生成サービスが禁止している政治的・宗教的にセンシティブな多くのテーマに関する画像[注 2]の生成を野放しにしているとTechCrunchは非難したが、モスタークは「違法なコンテンツは別として、フィルタリングは最小限に抑えられており、どのようにStable Diffusionを使用するかはユーザー次第」とコメントするに留まった[59]

OpenAIが提供する画像生成AIはディープフェイクに悪用されないように、特定のリクエストの入力をブロックするような対策がされている一方で、Stable Diffusionは名目上ポルノ生成を抑止するような方策が取られているものの、実際にはそれを回避した性的なコンテンツの生成が可能である。カリフォルニア大学バークレー校教授のハニー・ファリドによれば、インターネット上に公開された何億もの画像データを学習する過程で、女性を性的に扱うバイアスが反映されるため、モデルの出力を100%制御することは困難であるとされる[72][73]

Kickstarterでは、Stable Diffusionによるポルノの作成を目指す出資プロジェクトが、集めた資金で既存の画像を学習データとして利用することが、多くのアーティストから批判されていることを受け、AIアートに関する条項を変更し、プロジェクトをブロックした[74]

生成AIの負の側面として、詐欺や思考誘導、世論操作を行う目的で、捏造した顔画像や映像、フェイク音声、フェイク文章といったフェイクメディアを流通させる可能性が懸念されている。すでに国内においてもStable Diffusionを使って捏造された災害画像が拡散する事例もあり、AIを悪用した詐欺や詐称、名誉毀損は現実の脅威となっている。このため国内外で対策のための研究が進められている[75]

その他の批判

ブリンストン大学教授のアーヴィンド・ナラヤナン英語版は、メディアによる画像生成AIの宣伝に関しても厳しく批判しており、それを過度に擬人化するなど誤解を招くような印象を蔓延させ、誇大広告に加担していると指摘している。また、ナラヤナンは「AI報道で気をつけるべき18の落とし穴」として、AIが人間と同じように学習すると暗示して人間の知能とAIを比較したりすることや、AIを電気の発明や産業革命のような歴史的な大転換に安易になぞらえることを批判している[76]

脚注

関連項目

外部リンク

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.