Лучшие вопросы
Таймлайн
Чат
Перспективы
Метод k ближайших соседей
Из Википедии, свободной энциклопедии
Remove ads
Метод ближайших соседей (англ. k-nearest neighbors algorithm, k-NN) — метрический алгоритм для автоматической классификации объектов или регрессии.

В случае использования метода для классификации объект присваивается тому классу, который является наиболее распространённым среди соседей данного элемента, классы которых уже известны. В случае использования метода для регрессии, объекту присваивается среднее значение по ближайшим к нему объектам, значения которых уже известны.
Алгоритм может быть применим к выборкам с большим количеством атрибутов (многомерным). Для этого перед применением нужно определить функцию расстояния; классический вариант такой функции — евклидова метрика[1][2].
Remove ads
Нормализация
Суммиров вкратце
Перспектива
Разные атрибуты могут иметь разный диапазон представленных значений в выборке (например атрибут А представлен в диапазоне от 0,1 до 0,5, а атрибут Б представлен в диапазоне от 1000 до 5000), то значения дистанции могут сильно зависеть от атрибутов с бо́льшими диапазонами. Поэтому данные обычно подлежат нормализации. При кластерном анализе есть два основных способа нормализации данных: минимакс-нормализация и Z-нормализация.
Минимакс-нормализация осуществляется следующим образом:
- ,
в этом случае все значения будут лежать в диапазоне от 0 до 1; дискретные бинарные значения определяются как 0 и 1.
Z-нормализация:
- ,
где — среднеквадратичное отклонение; в этом случае большинство значений попадёт в диапазон .
Remove ads
Выделение значимых атрибутов
Некоторые значимые атрибуты могут быть важнее остальных, поэтому для каждого атрибута может быть задан в соответствие определённый вес (например вычисленный с помощью тестовой выборки и оптимизации ошибки отклонения). Таким образом, каждому атрибуту будет задан в соответствие вес , так что значение атрибута будет попадать в диапазон (для нормализованных значений по минимакс-методу). Например, если атрибуту присвоен вес 2,7, то его нормализованно-взвешенное значение будет лежать в диапазоне
Remove ads
Взвешенный способ
Суммиров вкратце
Перспектива
При взвешенном способе во внимание принимается не только количество попавших в область определённых классов, но и их удалённость от нового значения.
Для каждого класса определяется оценка близости:
- ,
где — расстояние от нового значения до объекта .
У какого класса выше значение близости, тот класс и присваивается новому объекту.
С помощью метода можно вычислять значение одного из атрибутов классифицируемого объекта на основании дистанций от попавших в область объектов и соответствующих значений этого же атрибута у объектов:
- ,
где — -й объект, попавший в область, — значение атрибута у заданного объекта , — новый объект, — -й атрибут нового объекта.
Remove ads
Примечания
Литература
Ссылки
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads