Унікальність (аналіз даних)

Унікальність ( $\varepsilon _{p}$ ) є показником ризику для вимірювання повторної ідентифікації високорозмірних анонімних даних^[en]. Вперше представлена у 2013 році,^[1] унікальність вимірюється кількістю точок p, необхідних для однозначної ідентифікації особи в наборі даних. Чим менше потрібно точок, тим унікальнішими є сліди і тим легше їх буде повторно ідентифікувати за допомогою зовнішньої інформації.

У високорозмірному наборі даних про поведінку людини, як-от метадані мобільного телефону, для кожної людини існують потенційно тисячі різних записів. У випадку метаданих мобільного телефону, історії транзакцій із кредитною карткою^[en] та багатьох інших типів персональних даних ця інформація включає час і місце перебування особи.

У дослідженнях уніфікація широко використовується для ілюстрації повторної ідентифікації анонімних наборів даних. У 2013 році^[1] Дослідники з MIT Media Lab показали, що лише 4 бали необхідні для однозначної ідентифікації 95% індивідуальних траєкторій у наборі деідентифікованих^[en] даних із 1,5 мільйонів мобільних траєкторій. Ці «точки» були парами місце-час, які з’являлися з роздільною здатністю 1 година та від 0,15 км² до 15 км². Було показано, що ці результати справедливі і для даних транзакцій кредитних карток^[2] при цьому 4 точки достатньо для повторного визначення 90% траєкторій. Подальше дослідження вивчало унікальність програм, встановлених людьми на своїх смартфонах,^[3] траєкторій транспортних засобів,^[4] даних мобільного телефону з Бостона та Сінгапуру,^[5] і даних про громадський транспорт у Сінгапурі, отриманих зі смарт-карт.^[6]

[1]

[2]

[3]

[4]

[5]

[6]

Унікальність (аналіз даних)

Вимірювання унікальності

Див. також

Примітки

Wikiwand - on