トップQs
タイムライン
チャット
視点

アースムーバー距離

ウィキペディアから

Remove ads

アースムーバー距離(アースムーバーきょり、: Earth Mover's Distance, EMD)は、密度関数度数分布、または測度の間の類似度を評価するための距離関数であり、計量空間 D 上に定義される。  

直感的には、分布を「土を積み上げた山」と見なすとき、一方の分布からもう一方を作るのに必要な最小の「労力」を表す。ここでの労力は、移動させた土の量と、それを動かした距離の積として定義される[1]

確率分布間におけるEMDは、ワッサースタイン距離 カントロヴィッチ-ルビンシュタイン距離、またはモローズ距離(Mallows distance)としても知られている[2]

これは最適輸送問題の解として定式化されており、モンジュ-カントロヴィッチ問題とも呼ばれる。また、離散的な要素の上で定義される場合、最小重み二部マッチング問題と等価である[3]

Remove ads

定義

要約
視点

確率分布 , に対し、EMDは以下のように定義される:

ここで は、 および 周辺分布とする結合分布全体の集合である。

カントロヴィッチ-ルビンシュタイン双対性を用いると、以下のようにも表せる:

ここで上限は全ての1-リプシッツ連続関数 にわたって取られる(すなわち .)

シグネチャ間のEMD

一部の応用では、分布を「シグネチャ」すなわち質量付きクラスタの集合として表現するのが便利である。たとえば: .

クラスタ の距離を とすると、全体のコストを最小化するようなフロー を求めて次のように定義する:

制約条件は:

EMDは以下のように定義される:

Remove ads

拡張と変種

要約
視点

質量が異なる場合

の全体質量が異なる場合、部分一致を許すことで対応できる[1]

以下のように定式化される:

ここで は、 および 以上の測度を持つ結合測度全体。 また、土の「生成・消失」を許し、その際にペナルティコスト を加えることで、真の距離関数を定義できる[4]

多分布間のEMD

EMDは2つ以上の分布に拡張することもできる。このとき、複数分布の「距離」は線形計画問題の最適解として定義され、Minkowski加法性と単調性を持つことが知られている[5]

Remove ads

EMDの計算

要約
視点

EMDは輸送問題として定式化され、最小費用流問題のアルゴリズム(たとえばネットワーク単体法)で解ける。

特別な場合として、1次元のヒストグラムにおけるEMDは以下のように効率的に計算できる:

Remove ads

応用

EMDは画像検索における類似度計算や、パターン認識でのシグネチャ間の比較に用いられる。[1]  

また、フローサイトメトリーなどのバイオマーカー比較にも応用されている[6]

脚注

外部リンク

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads