Топ питань
Часова шкала
Чат
Перспективи
Косинус подібності
міра схожости векторів З Вікіпедії, вільної енциклопедії
Remove ads
Косинус подібності (англ. cosine similarity) — коефіцієнт подібності двох не нульових векторів у предгільбертовому просторі, який обчислюється як косинус кута між ними. Косинус 0° дорівнює 1, а для всіх інших значень кута в інтервалі (0,π] буде менше за 1. Отож, це оцінка напрямку, а не величини: два вектори з однаковим напрямком мають косинус подібності 1, а два вектора, які утворюють кут 90° один відносно одного, мають подібність 0, а два діаметрально направлені вектори мають подібність -1, незалежно від їх довжини. Косинус подібності часто використовують в позитивному просторі, для якого результат обмежений проміжком . Назва походить від терміна «направлений косинус»: в цьому випадку одиничні вектори максимально «подібні», якщо вони паралельні і максимально «різні», якщо вони ортогональні (перпендикулярні). Це аналогічно косинусу, який є одиницею (максимальне значення), коли відрізки утворюють нульовий кут і нулем (не корельовані), коли відрізки ортогональні.
Ці межі застосовуються до будь-якої кількості вимірів, але найчастіше косинус подібності використовується у багатовимірних додатних просторах. Наприклад, при інформаційному пошуку та аналізі тексту, кожен термін пов'язаний з окремим виміром, і тому документ характеризується вектором, де значення кожного виміру відповідає кількості разів, що термін з'являється у документі. Тоді косинус подібності дає корисну оцінку того, наскільки подібні два документи у термінах теми.[1]
Ця методика також використовується при добуванні даних для вимірювання згрупованості всередині кластерів.[2]
Вираз відстань з косинусом часто використовують як доповнення у додатному просторі, а саме: де — відстань з косинусом, а — косинус подібності. Однак, варто зауважити, що це не є метрикою, бо не виконується нерівність трикутника або, більш формально, нерівність Коші — Буняковського, що порушує аксіому збіжності. Для того, щоб виконувалась нерівність трикутника, необхідно перейти до кутової відстані.
Однією з переваг косинуса подібності є низька складність обчислення, особливо для розріджених векторів: достатньо брати лише координати з ненульовим значенням.
Для косинуса подібності також використовуються інші назви, такі як подібність Орчині (англ. Orchini) або коефіцієнт Тукера (англ. Tucker). Подібність Очиаї (англ. Ochiai) — це косинус подібності застосований до бінарних даних.
Remove ads
Визначення
Узагальнити
Перспектива
Косинус двох не нульових векторів можна описати за допомогою скалярного добутку у Евклідовому просторі:
Для двох заданих векторів ознак, A та B, косинус подібності, cos(θ), представляється за допомогою скалярного добутку та довжини, як
де та — координати вектору та відповідно.
Remove ads
Примітки
Див. також
Посилання
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads