Кластеризація методом к–середніх

Кластериза́ція ме́тодом k-сере́дніх (англ. k-means clustering) — популярний метод кластеризації, — впорядкування множини об'єктів у порівняно однорідні групи. Винайдений в 1950-х роках математиком Гуґо Штайнгаузом^[1] і майже одночасно Стюартом Ллойдом^[2]. Особливу популярність отримав після виходу роботи МакКвіна (1967)^[3].

Мета методу — розділити $n$ спостережень на $k$ кластерів, так щоб кожне спостереження належало до кластера з найближчим до нього середнім значенням. Метод базується на мінімізації суми квадратів відстаней між кожним спостереженням та центром його кластера, тобто функції

\,\sum _{i=1}^{N}d(x_{i},m_{j}\,(x_{i}))^{2}\

де d — метрика, $x_{i}$ — і-ий об'єкт даних, а $m_{j}(x_{i})$ — центр кластера, якому на j-ій ітерації приписаний елемент $x_{i}$ .

Опис алгоритму

Маємо масив спостережень (об'єктів), кожен з яких має певні значення за рядом ознак. Відповідно до цих значень об'єкт розташовується у багатовимірному просторі.

Дослідник визначає кількість кластерів $k$ , що необхідно утворити
Випадковим чином обирається $k$ спостережень, які на цьому кроці вважаються центрами кластерів
Кожне спостереження «приписується» до одного з $k$ кластерів — того, відстань до якого найкоротша
Розраховується новий центр кожного кластера як елемент, ознаки якого розраховуються як середнє арифметичне ознак об'єктів, що входять у цей кластер
Відбувається така кількість ітерацій (повторюються кроки 3-4), поки кластерні центри стануть стійкими (тобто при кожній ітерації в кожен кластер потрапляють одні й ті самі об'єкти), дисперсія всередині кластера буде мінімізована, а між кластерами — максимізована

Вибір кількості кластерів робиться на основі дослідницької гіпотези. Якщо її немає, то рекомендують спочатку створити 2 кластери, далі 3, 4, 5, порівнюючи отримані результати.

Демонстрація алгоритму
1. $k$ початкових «середніх» (тут $k=3$ ) випадково згенеровані у межах домени даних (кольорові).
2. створено $k$ кластерів, асоціюючи кожне спостереження з найближчим середнім. Розбиття відбувається згідно з діаграмою Вороного утвореною середніми.
3. Центроїд кожного з $k$ кластерів стає новим середнім.
4. Кроки 2 і 3 повторюються до досягнення збіжності.

Принцип дії

Принцип алгоритму полягає в пошуку таких центрів кластерів та наборів елементів кожного кластера при наявності деякої функції Ф(°), що виражає якість поточного розбиття множини на k кластерів, коли сумарне квадратичне відхилення елементів кластерів від центрів цих кластерів буде найменшим:

V=\sum _{i=1}^{k}\sum _{x_{j}\in S_{i}}(x_{j}-\mu _{i})^{2}

де $k$ — число кластерів, $S_{i}$ — отримані кластери, $i=1,2,\dots ,k$ , $\mu _{i}$ — центри мас векторів $x_{j}\in S_{i}$ .

У початковий момент роботи алгоритму довільним чином обираються центри кластерів, далі для кожного елемента множини ітеративно обраховується відстань від центрів з приєднанням кожного елемента до кластера з найближчим центром. Для кожного з отриманих кластерів обчислюються нові значення центрів, намагаючись при цьому мінімізувати функцію Ф(°), після чого повторюється процедура перерозподілу елементів між кластерами.

Алгоритм методу «Кластеризація за схемою к-середніх»:

вибрати k інформаційних точок як центри кластерів поки не завершиться процес зміни центрів кластерів;
зіставити кожну інформаційну точку з кластером, відстань до центра якого мінімальна;
переконатися, що в кожному кластері міститься хоча б одна точка. Для цього кожний порожній кластер потрібно доповнити довільною точкою, що розташована «далеко» від центра кластера;
центр кожного кластера замінити середнім від елементів кластера;
кінець.

Кластеризація методом к–середніх

Історія

Алгоритм

Опис алгоритму

Принцип дії

Переваги

Недоліки

Застосування

Див. також

Примітки

Посилання

Wikiwand - on