トップQs
タイムライン
チャット
視点
アースムーバー距離
ウィキペディアから
Remove ads
アースムーバー距離(アースムーバーきょり、英: Earth Mover's Distance, EMD)は、密度関数、度数分布、または測度の間の類似度を評価するための距離関数であり、計量空間 D 上に定義される。
直感的には、分布を「土を積み上げた山」と見なすとき、一方の分布からもう一方を作るのに必要な最小の「労力」を表す。ここでの労力は、移動させた土の量と、それを動かした距離の積として定義される[1]。
確率分布間におけるEMDは、ワッサースタイン距離 、カントロヴィッチ-ルビンシュタイン距離、またはモローズ距離(Mallows distance)としても知られている[2]。
これは最適輸送問題の解として定式化されており、モンジュ-カントロヴィッチ問題とも呼ばれる。また、離散的な要素の上で定義される場合、最小重み二部マッチング問題と等価である[3]。
Remove ads
定義
要約
視点
確率分布 , に対し、EMDは以下のように定義される:
ここで は、 および を周辺分布とする結合分布全体の集合である。
カントロヴィッチ-ルビンシュタイン双対性を用いると、以下のようにも表せる:
ここで上限は全ての1-リプシッツ連続関数 にわたって取られる(すなわち .)
シグネチャ間のEMD
一部の応用では、分布を「シグネチャ」すなわち質量付きクラスタの集合として表現するのが便利である。たとえば: .
クラスタ との距離を とすると、全体のコストを最小化するようなフロー を求めて次のように定義する:
制約条件は:
EMDは以下のように定義される:
Remove ads
拡張と変種
要約
視点
質量が異なる場合
と の全体質量が異なる場合、部分一致を許すことで対応できる[1]。
以下のように定式化される:
ここで は、 および 以上の測度を持つ結合測度全体。 また、土の「生成・消失」を許し、その際にペナルティコスト を加えることで、真の距離関数を定義できる[4]。
多分布間のEMD
EMDは2つ以上の分布に拡張することもできる。このとき、複数分布の「距離」は線形計画問題の最適解として定義され、Minkowski加法性と単調性を持つことが知られている[5]。
Remove ads
EMDの計算
要約
視点
EMDは輸送問題として定式化され、最小費用流問題のアルゴリズム(たとえばネットワーク単体法)で解ける。
特別な場合として、1次元のヒストグラムにおけるEMDは以下のように効率的に計算できる:
Remove ads
応用
EMDは画像検索における類似度計算や、パターン認識でのシグネチャ間の比較に用いられる。[1]
また、フローサイトメトリーなどのバイオマーカー比較にも応用されている[6]。
脚注
外部リンク
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads