レーベンバーグ・マルカート法

他の数値最適化手法と同様、LM法は反復法を用いる。まず、パラメーターベクトル $β$ の初期推定値を与える必要がある。極小点が1つしかない場合、事前情報に基づかない均一な初期推定値、たとえば $β T = (1, 1, \dots, 1)$ でも大域解に到達することができるが、複数の局所最小値が存在する場合、初期推定値が十分に大域最小点に近いときにしか大域解には収束しない。

各反復ステップにおいてパラメーターベクトル $β$ は新しい推定値 $β + δ$ へ置き換えられる。 $δ$ を決めるため、 $f (x i, β + δ)$ を次のように線形近似する。

f\left(x_{i},{\boldsymbol {\beta }}+{\boldsymbol {\delta }}\right)\approx f\left(x_{i},{\boldsymbol {\beta }}\right)+{\boldsymbol {J}}_{i}{\boldsymbol {\delta }}

ここで、

{\boldsymbol {J}}_{i}={\frac {\partial f\left(x_{i},{\boldsymbol {\beta }}\right)}{\partial {\boldsymbol {\beta }}}}

は関数 $f$ の $β$ についての勾配（ここでは行ベクトルとする）である。

偏差の二乗和 $S (β)$ は、この勾配がゼロのとき局所最小となる。上式の一次近似を用いると、 $f (x i, β + δ)$ の偏差二乗和は以下のように近似される。

S\left({\boldsymbol {\beta }}+{\boldsymbol {\delta }}\right)\approx \sum _{i=1}^{m}\left[y_{i}-f\left(x_{i},{\boldsymbol {\beta }}\right)-{\boldsymbol {J}}_{i}{\boldsymbol {\delta }}\right]^{2}

ベクトル表記すると、以下のように書ける。

{\begin{aligned}S\left({\boldsymbol {\beta }}+{\boldsymbol {\delta }}\right)&\approx \left\|{\boldsymbol {y}}-{\boldsymbol {f}}\left({\boldsymbol {\beta }}\right)-{\boldsymbol {J}}{\boldsymbol {\delta }}\right\|^{2}\\&=\left[{\boldsymbol {y}}-{\boldsymbol {f}}\left({\boldsymbol {\beta }}\right)-{\boldsymbol {J}}{\boldsymbol {\delta }}\right]^{\mathrm {T} }\left[{\boldsymbol {y}}-{\boldsymbol {f}}\left({\boldsymbol {\beta }}\right)-{\boldsymbol {J}}{\boldsymbol {\delta }}\right]\\&=\left[{\boldsymbol {y}}-{\boldsymbol {f}}\left({\boldsymbol {\beta }}\right)\right]^{\mathrm {T} }\left[{\boldsymbol {y}}-{\boldsymbol {f}}\left({\boldsymbol {\beta }}\right)\right]-\left[{\boldsymbol {y}}-{\boldsymbol {f}}\left({\boldsymbol {\beta }}\right)\right]^{\mathrm {T} }{\boldsymbol {J}}{\boldsymbol {\delta }}-\left({\boldsymbol {J}}{\boldsymbol {\delta }}\right)^{\mathrm {T} }\left[{\boldsymbol {y}}-{\boldsymbol {f}}\left({\boldsymbol {\beta }}\right)\right]+{\boldsymbol {\delta }}^{\mathrm {T} }{\boldsymbol {J}}^{\mathrm {T} }{\boldsymbol {J}}{\boldsymbol {\delta }}\\&=\left[{\boldsymbol {y}}-{\boldsymbol {f}}\left({\boldsymbol {\beta }}\right)\right]^{\mathrm {T} }\left[{\boldsymbol {y}}-{\boldsymbol {f}}\left({\boldsymbol {\beta }}\right)\right]-2\left[{\boldsymbol {y}}-{\boldsymbol {f}}\left({\boldsymbol {\beta }}\right)\right]^{\mathrm {T} }{\boldsymbol {J}}{\boldsymbol {\delta }}+{\boldsymbol {\delta }}^{\mathrm {T} }{\boldsymbol {J}}^{\mathrm {T} }{\boldsymbol {J}}{\boldsymbol {\delta }}\end{aligned}}

$S (β + δ)$ を $δ$ に関して微分した結果を0とすると、以下の式を得る。

\left({\boldsymbol {J}}^{\mathrm {T} }{\boldsymbol {J}}\right){\boldsymbol {\delta }}={\boldsymbol {J}}^{\mathrm {T} }\left[{\boldsymbol {y}}-{\boldsymbol {f}}\left({\boldsymbol {\beta }}\right)\right]

ここで、 $J$ はヤコビ行列であり、その $i$ 行目は $J i$ に等しい。また、 $f (β), y$ はそれぞれ、 $i$ 行目成分を $f (x i), y i$ とするベクトルである。ヤコビ行列は一般的には正方行列ではなく、 $m$ をデータ点数、 $n$ をベクトル $β$ のサイズとして $m \times n$ 長方形行列である。行列積 $J T J$ は $n \times n$ 正方行列となり、上式は $n$ 連立線形方程式であるからこれを解いて $δ$ を得ることができる。これをそのまま解くのがガウス・ニュートン法である。

LM法では、この方程式を次のように「減衰」させたものに置き換える。

\left({\boldsymbol {J}}^{\mathrm {T} }{\boldsymbol {J}}+\lambda \mathbf {I} \right){\boldsymbol {\delta }}={\boldsymbol {J}}^{\mathrm {T} }\left[{\boldsymbol {y}}-{\boldsymbol {f}}\left({\boldsymbol {\beta }}\right)\right]\quad (\lambda \geq 0)

ここで、 $I$ は単位行列である。これを解いて得られる $δ$ を用いてパラメータベクトル $β$ の推定値を更新する。

非負の減衰係数 $λ$ は各反復ごとに調整される。 $S$ が急速に減少する際には小さい値が用いられ、LM法はGN法に近づく。対して、残差が十分に減少しない場合は大きい値の $λ$ が用いられ、 $S$ の $β$ についての勾配は $- 2 (J T [y - f (β)]) T$ であることに注意すると、 $λ$ が大きいとき $δ$ は勾配の逆向きに近付きLM法は最急降下法に近づくことがわかる。計算された $δ$ が十分小さくなったとき、もしくは得られたパラメータ推定値 $β + δ$ に置き換えた際の偏差二乗和の減少が十分に小さくなったときのどちらかの場合に反復は打ち切られ、解 $β$ を得る。

減衰係数 $λ$ が $‖ J T J ‖$ に比べて大きいときは、 $J T J + λ I$ の逆行列を求める必要はなく、更新ステップ $δ$ は $\lambda ^{-1}{\boldsymbol {J}}^{\mathrm {T} }\left[{\boldsymbol {y}}-{\boldsymbol {f}}\left({\boldsymbol {\beta }}\right)\right]$ で十分に近似される。

LM法は、 $λ$ が大きい値のとき $J T J$ の情報がほとんど使われないという欠点を持つ。Fletcherは1971年、勾配が小さい方向への収束が遅いという問題を避けるため、勾配を曲率に応じてスケールするという考えから、単位行列 $I$ を $J T J$ の対角要素で置き換え、解をスケール不変にする手法が提案された^[7]。

\left[{\boldsymbol {J}}^{\mathrm {T} }{\boldsymbol {J}}+\lambda \operatorname {diag} \left({\boldsymbol {J}}^{\mathrm {T} }{\boldsymbol {J}}\right)\right]{\boldsymbol {\delta }}={\boldsymbol {J}}^{\mathrm {T} }\left[{\boldsymbol {y}}-{\boldsymbol {f}}\left({\boldsymbol {\beta }}\right)\right]

同様の減衰因子は、線形不良設定問題を解くために用いられるティホノフ正則化（英語版）や、リッジ回帰と呼ばれる推計法にも現れる。

減衰パラメータの選び方

最良の減衰係数 $λ$ を選ぶ方法としては、様々な議論があるが、大なり小なりヒューリスティックなものである。それらの選び方がなぜ局所最小点への収束を保証するかを示す理論的な議論はあるが、大域最小点へ収束するような選び方をすると最急降下法の望ましくない特質、とくに収束が遅いという側面が表われてしまう。

どんな選び方をしても、パラメータの大きさはもとの問題がどれほど良くスケールするかに依存する。マーカートは次のような選び方を推奨している。まず初期値 $λ = λ 0$ を選んで最初のステップを実行し、残差 $S (β)$ が最初の点よりも減った場合は $ν > 1$ なる係数を用いて次のステップは $λ = λ 0 / ν$ とする。残差が増えてしまった場合は、減るようになるまで繰り返し $ν$ を掛け $λ 0 ν k$ を用いて計算をする。

減衰係数 $λ / ν$ を用いた結果が二乗残差を減少させたなら、これを $λ$ の新しい値とし（かつ $λ / ν$ を用いた結果を採用し）、プロセスを続行する。もし $λ / ν$ を用いた残差が $λ$ を用いた残差よりも大きくなったならば、 $λ$ の値を変えず、 $λ$ を用いた結果を採用する。

delayed gratification^{[訳語疑問点]}と呼ばれる減衰係数の効果的な制御方法がある。この方法では、上り坂のステップごとに係数を少しずつ増やし、下り坂のステップごとにパラメーターを大幅に減らす。この戦略は、最適化の開始時に坂を下りすぎ、後に使用できるステップが制限されて、収束が遅くなることを防ぐことを主眼においている^[8]。ほとんどの場合、増加時には2倍、減少時には3分の1を採用すればうまくいくことが示されているが、大規模な問題の場合は、増加時は1.5倍、減少時は5分の1というより極端な値を用いる方がよいことが知られている^[9]。

測地線加速度項

レーベンバーグ・マルカート法の更新ステップ $v k$ を、パラメーター空間の測地経路に沿った速度と捉えると、測地経路に沿う加速度に対応する2次の項 $a k$ を次のように加える改善が考えられる。

{\boldsymbol {v}}_{k}+{\frac {1}{2}}{\boldsymbol {a}}_{k}

ここで、 $a k$ は次の方程式の解である。

{\boldsymbol {J}}_{k}{\boldsymbol {a}}_{k}=-f_{vv}({\boldsymbol {x}}_{k})

この測地線加速度項は速度 $v$ に沿う方向微分 $f_{vv}({\boldsymbol {x}})=\sum _{\mu \nu }v_{\mu }v_{\nu }\partial _{\mu }\partial _{\nu }f({\boldsymbol {x}})$ のみに依存するため、完全な二次導関数行列を計算する必要はなく、計算コスト上のオーバーヘッドは比較的小さい^[10]。2次導関数はかなり複雑な式になる場合があるため、有限差分近似に置き換えると便利な場合がある。