ファインチューニング (機械学習)

この項目では、機械学習の技術について説明しています。他の用途については「ファインチューニング」をご覧ください。

機械学習の文脈において、ファインチューニング（英: fine-tuning、微調整）は、事前学習したモデルの重みを新しいデータで訓練する転移学習の一つの手法である^[1]。ファインチューニングは、ニューラルネットワーク全体で行うことも、また一部の層に対してのみ行うこともできる。後者の場合、ファインチューニングを行わない層は「凍結」され、バックプロパゲーションの過程で更新されない^[2]。

畳み込みニューラルネットワークなど、いくつかのアーキテクチャでは、浅い層（入力層に最も近い側）は低レベルの特徴を捉えるために凍結しておくのが一般的で、それより深い層は、モデルが訓練されたタスクとより関連しうる高レベルの特徴を識別することがよくある^[2]^[3]。

自然言語処理（NLP）、特に言語モデリングの分野では、ファインチューニングはよく行われる方法である。たとえば、OpenAIのGPT-2のような大規模言語モデルの場合、下流のNLPタスクでファインチューニングを行うことで、事前学習モデルが通常達成するよりも優れた結果を得ることができる^[4]。大規模かつ一般的なコーパスで事前訓練されたモデルは、通常、出発点としてモデルパラメータを再利用し、最初から訓練されたタスク固有の層を追加することでファインチューニングされる^[5]。モデル全体をファインチューニングすることも一般的で、より良い結果が得られることが多いが、その代わりに計算量が多くなる^[4]。また、完全なファインチューニングは過剰適合を起こしやすく、ファインチューニングで使用した訓練データの分布以外のデータに対してモデルの性能を低下させる可能性がある^[6]。

ファインチューニングは通常、教師あり学習で行われるが、弱教師あり学習（英語版）でモデルをファインチューニングする技術もある^[7]。また、ChatGPT（GPT-3のファインチューニング版）やSparrow（英語版）などの言語モデルのファインチューニングには、人間のフィードバックによる強化学習が使用されている^[8]^[9]。低ランク適応（英: Low-Rank Adaptation, LoRA）は、既存の重みに追加する低ランク行列（英語版）（更新行列）を訓練するのに役立つ^[10]。基本的な考え方は次のとおりである。モデル内に $N\times N$ 行列 $A$ があり、 $N$ が大きい場合、 $A$ 自体を $A'$ に修正するか、 $A':=A+VW^{T}$ と定義して、 $V,W$ を訓練することができる。ここで、 $V,W$ はサイズ $N\times r$ であり、 $r\ll N$ は更新行列 $VW^{T}$ の低ランクである。

LoRAは言語モデルによく使われるほか、画像モデルにも使われる^[11]。

ファインチューニング (機械学習)

概要

参考項目

脚注

Wikiwand - on