トップQs
タイムライン
チャット
視点

ニューラルスケーリング則

ウィキペディアから

Remove ads

機械学習において、ニューラルスケーリング則(ニューラルスケーリングそく、: neural scaling law)は、ニューラルネットワークのパラメータに関するスケーリング則である。[1][2]

概要

要約
視点

一般的に、ニューラルネットワークモデルは、モデルの大きさ、訓練データセットの大きさ、訓練コスト、訓練後の性能という4つのパラメータにより特徴付けられる。4つのパラメータは実数として正確に定義することができ、また単純な統計則に従うことが経験的に知られている。これらのパラメータは通常、(パラメータ数、データセットの大きさ、計算コスト、損失)と表記される。

モデルの大きさ

ほとんどの場合、モデルの大きさとはパラメータ数を指す。しかし、Mixture-of-Expert モデル[3]といったスパースモデルにおいてはその限りではない。スパースモデルの推論には、パラメータ全体の一部のみが利用される。それと比べて、他のほとんどのニューラルネットワークモデル(Transformer など)では、常にすべてのパラメータを利用して推論が行われる。

訓練データセットの大きさ

訓練データセットの大きさは通常、それに含まれるデータ点の数で定量化される。モデルの学習には豊富で多様な情報源が必要であるため、訓練データセットはより大きなものが好まれる。これにより、モデルを未知のデータを適用した際の汎化性能が向上する。[4] しかし、訓練データセットを大きくすることは、モデルの訓練に必要な計算リソースと時間が増加することも意味する。

ほとんどの大規模言語モデルで用いられている「事前に訓練し、微調整する」方法では、事前訓練データセットと微調整データセットと呼ばれる、2種類の訓練データセットが用いられる。これらの大きさはモデルの性能にそれぞれ異なる影響を及ぼす。一般的に、微調整には事前訓練時と比べて1%未満の大きさのデータセットが用いられる。[5]

微調整には少数の高品質なデータで十分であり、より多くのデータを用いても性能が向上しない場合もある。[5]

訓練コスト

訓練コストは通常、時間(訓練にどれだけの時間が必要か)と計算リソース(訓練にはどれだけの計算能力とメモリが必要か)の観点から測られる。特筆すべきは、訓練コストは効率的な訓練アルゴリズム、最適化されたソフトウェア、GPUTPU 上での並列計算により大幅に削減できることである。

ニューラルネットワークモデルの訓練コストは、モデルの大きさ、訓練データセットの大きさ、訓練アルゴリズムの複雑さ、利用可能な計算リソースといった要素の関数として考えることができる。[4] 特に、訓練データセットを2倍に増やすことは、必ずしも訓練コストが2倍になることを意味しない。これは、あるデータセット(これを1エポックとして扱う)に対して何回もモデルを訓練することがあるためである。

性能

ニューラルネットワークモデルの性能は、与えられた入力から、どれほど正確に出力を予測できるかで評価される。一般的な評価指標としては以下がある。[4]

モデルの性能は、より多くのデータ、より大きなモデル、異なる訓練アルゴリズムの併用、過適合の防止、検証データセットによる早期終了により改善することができる。

Remove ads

脚注

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads