Топ питань
Часова шкала
Чат
Перспективи

Унікальність (аналіз даних)

З Вікіпедії, вільної енциклопедії

Remove ads

Унікальність () є показником ризику для вимірювання повторної ідентифікації високорозмірних анонімних даних[en]. Вперше представлена у 2013 році,[1] унікальність вимірюється кількістю точок p, необхідних для однозначної ідентифікації особи в наборі даних. Чим менше потрібно точок, тим унікальнішими є сліди і тим легше їх буде повторно ідентифікувати за допомогою зовнішньої інформації.

У високорозмірному наборі даних про поведінку людини, як-от метадані мобільного телефону, для кожної людини існують потенційно тисячі різних записів. У випадку метаданих мобільного телефону, історії транзакцій із кредитною карткою[en] та багатьох інших типів персональних даних ця інформація включає час і місце перебування особи.

У дослідженнях уніфікація широко використовується для ілюстрації повторної ідентифікації анонімних наборів даних. У 2013 році[1] Дослідники з MIT Media Lab показали, що лише 4 бали необхідні для однозначної ідентифікації 95% індивідуальних траєкторій у наборі деідентифікованих[en] даних із 1,5 мільйонів мобільних траєкторій. Ці «точки» були парами місце-час, які з’являлися з роздільною здатністю 1 година та від 0,15 км² до 15 км². Було показано, що ці результати справедливі і для даних транзакцій кредитних карток[2] при цьому 4 точки достатньо для повторного визначення 90% траєкторій. Подальше дослідження вивчало унікальність програм, встановлених людьми на своїх смартфонах,[3] траєкторій транспортних засобів,[4] даних мобільного телефону з Бостона та Сінгапуру,[5] і даних про громадський транспорт у Сінгапурі, отриманих зі смарт-карт.[6]

Remove ads

Вимірювання унікальності

Уніфікація () формально визначається як очікуване значення частки однозначно ідентифікованих траєкторій, заданих p точок, вибраних із цих траєкторій рівномірно випадковим чином. Повне обчислення набору даних вимагає рівномірного випадкового вибору точок p з кожної траєкторії , а потім перевірки, чи містить будь-яка інша траєкторія ці точки p. Усереднення за всіма можливими наборами точок p для кожної траєкторії призводить до значення . Зазвичай це надто дорого[3], оскільки вимагає врахування кожного можливого p набору точок для кожної траєкторії в наборі даних — траєкторій, які іноді містять тисячі точок.[1][2]

Натомість уніфікація зазвичай оцінюється за допомогою методів вибірки. Зокрема, враховуючи набір даних , оцінена унікальність обчислюється шляхом вибірки з частини траєкторій , а потім перевірки, чи кожна з траєкторії є унікальними в з урахуванням p випадково вибраних точок з кожного . Частка , яку можна однозначно ідентифікувати, є тоді оцінкою однозначності.

Remove ads

Див. також

Примітки

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads