Топ питань
Часова шкала
Чат
Перспективи

Косинус подібності

міра схожости векторів З Вікіпедії, вільної енциклопедії

Remove ads

Косинус подібності (англ. cosine similarity) коефіцієнт подібності двох не нульових векторів у предгільбертовому просторі, який обчислюється як косинус кута між ними. Косинус 0° дорівнює 1, а для всіх інших значень кута в інтервалі (0,π] буде менше за 1. Отож, це оцінка напрямку, а не величини: два вектори з однаковим напрямком мають косинус подібності 1, а два вектора, які утворюють кут 90° один відносно одного, мають подібність 0, а два діаметрально направлені вектори мають подібність -1, незалежно від їх довжини. Косинус подібності часто використовують в позитивному просторі, для якого результат обмежений проміжком . Назва походить від терміна «направлений косинус»: в цьому випадку одиничні вектори максимально «подібні», якщо вони паралельні і максимально «різні», якщо вони ортогональні (перпендикулярні). Це аналогічно косинусу, який є одиницею (максимальне значення), коли відрізки утворюють нульовий кут і нулем (не корельовані), коли відрізки ортогональні.

Ці межі застосовуються до будь-якої кількості вимірів, але найчастіше косинус подібності використовується у багатовимірних додатних просторах. Наприклад, при інформаційному пошуку та аналізі тексту, кожен термін пов'язаний з окремим виміром, і тому документ характеризується вектором, де значення кожного виміру відповідає кількості разів, що термін з'являється у документі. Тоді косинус подібності дає корисну оцінку того, наскільки подібні два документи у термінах теми.[1]

Ця методика також використовується при добуванні даних для вимірювання згрупованості всередині кластерів.[2]

Вираз відстань з косинусом часто використовують як доповнення у додатному просторі, а саме: де  — відстань з косинусом, а  — косинус подібності. Однак, варто зауважити, що це не є метрикою, бо не виконується нерівність трикутника або, більш формально, нерівність Коші — Буняковського, що порушує аксіому збіжності. Для того, щоб виконувалась нерівність трикутника, необхідно перейти до кутової відстані.

Однією з переваг косинуса подібності є низька складність обчислення, особливо для розріджених векторів: достатньо брати лише координати з ненульовим значенням.

Для косинуса подібності також використовуються інші назви, такі як подібність Орчині (англ. Orchini) або коефіцієнт Тукера (англ. Tucker). Подібність Очиаї (англ. Ochiai) — це косинус подібності застосований до бінарних даних.

Remove ads

Визначення

Узагальнити
Перспектива

Косинус двох не нульових векторів можна описати за допомогою скалярного добутку у Евклідовому просторі:

Для двох заданих векторів ознак, A та B, косинус подібності, cos(θ), представляється за допомогою скалярного добутку та довжини, як

де та  — координати вектору та відповідно.

Remove ads

Примітки

Див. також

Посилання

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads