K平均法

k平均法（kへいきんほう、英: k-means clustering）は、非階層型クラスタリングのアルゴリズム。クラスタの平均を用い、与えられたクラスタ数k個に分類することから、MacQueen がこのように命名した。k-平均法（k-means）、c-平均法（c-means）とも呼ばれる。

この記事は英語版の対応するページを翻訳することにより充実させることができます。（2024年5月）

翻訳前に重要な指示を読むには右にある[表示]をクリックしてください。

英語版記事を日本語へ機械翻訳したバージョン（Google翻訳）。
万が一翻訳の手がかりとして機械翻訳を用いた場合、翻訳者は必ず翻訳元原文を参照して機械翻訳の誤りを訂正し、正確な翻訳にしなければなりません。これが成されていない場合、記事は削除の方針G-3に基づき、削除される可能性があります。
信頼性が低いまたは低品質な文章を翻訳しないでください。もし可能ならば、文章を他言語版記事に示された文献で正しいかどうかを確認してください。
履歴継承を行うため、要約欄に翻訳元となった記事のページ名・版について記述する必要があります。記述方法については、Wikipedia:翻訳のガイドライン#要約欄への記入を参照ください。
翻訳後、{{翻訳告知|en|k-means clustering|…}}をノートに追加することもできます。
Wikipedia:翻訳のガイドラインに、より詳細な翻訳の手順・指針についての説明があります。

何度か再発見されており、まず、Hugo Steinhusが1957年に発表し^[1]、Stuart Lloydが1957年に考案し、E.W.Forgyが1965年に発表し^[2]、James MacQueenが1967年に発表しk-meansと命名した^[3]。

数式で表現すると、下記最適化問題を解くアルゴリズム^[4]。本アルゴリズムでは最小値ではなく初期値依存の極小値に収束する。

\operatorname {arg\,min} _{V_{1},\dotsc ,V_{k}}\sum _{i=1}^{n}\min _{j}\left\|x_{i}-V_{j}\right\|^{2}

単純なアルゴリズムであり、広く用いられている。分類をファジィ化したファジィc-平均法やエントロピー法をはじめ、データ構造を発見するさまざまな応用手法が提案されている。上記の最適化問題はNP困難であるが、k-平均法は局所解を求める効率的なヒューリスティックである。k-平均法は混合正規分布に対するEMアルゴリズムの特殊な場合である。

k-平均法は、一般には以下のような流れで実装される^[5]^[6]。データの数を $n$ 、クラスタの数を $k$ としておく。

各データ $x_{i}(i=1,\dotsc ,n)$ に対してランダムにクラスタを割り振る。
割り振ったデータをもとに各クラスタの中心 $V_{j}(j=1,\dotsc ,k)$ を計算する。計算は通常割り当てられたデータの各要素の算術平均が使用されるが、必須ではない。
各 $x_{i}$ と各 $V_{j}$ との距離を求め、 $x_{i}$ を最も近い中心のクラスタに割り当て直す。
上記の処理で全ての $x_{i}$ のクラスタの割り当てが変化しなかった場合、あるいは変化量が事前に設定した一定の閾値を下回った場合に、収束したと判断して処理を終了する。そうでない場合は新しく割り振られたクラスタから $V_{j}$ を再計算して上記の処理を繰り返す。

結果は、最初のクラスタのランダムな割り振りに大きく依存することが知られており、1回の結果で最良のものが得られるとは限らない。そのため、何度か繰り返して行って最良の結果を選択する手法や、k-means++法のように最初のクラスタ中心点の振り方を工夫する手法などが使用されることがある。

なお、このアルゴリズムではクラスタ数 k は最初に所与のものとして定めるため、最適なクラスタ数を選ぶには他の計算等による考察を用いる必要がある。

アルゴリズム

脚注

参考文献

関連項目

Wikiwand - on