热门问题
时间线
聊天
视角
假名化
来自维基百科,自由的百科全书
Remove ads
假名化(Pseudonymization)是一種數據管理和去識別化過程。該過程通過使用人工標識符或假名取代原始數據記錄內的個人身份信息 [1]實現了在不影響數據分析和數據處理的前提下做好個人隱私信息保護工作。
歷史
假名這一概念在計算機加密中最早在1981年由David L. Chaum在描述一種使電子郵件接收者無法追蹤發信人的論文[2]中提出,文中作者提出了一種通過公私鑰生成的數位化假名代替真實名稱來進行不記名的工作(如投票計數)的方法。
2000年,Andreas Pfitzmann在題為《匿名性、不可觀測性和偽 假名性ーー一個術語學建議》一文中,首次對名詞「假名」及其動詞形式「假名化」做了正式定義——假名是一種可以識別某一主體的標識符,而該主體被稱為假名的持有者。[3]
文中舉例:在一個互發消息的場景下,沒有假名時,發送者和接收者都在使用其可以聯繫到真實世界個人的個人信息進行交流,而應用假名後,發送者通過長時間使用同一個假名,可以做到與接收者建立聯繫的同時,隱匿自己的真實個人信息,從而做到對個人信息的保護。
2008年,ISO組織在ISO-TS-25237-2008 - Health informatics — Pseudonymization標準中提出了在醫療健康領域信息處理過程中,如何使用假名化技術在國內或跨境通信中保護患者個人隱私的方法。標準中提出了假名化相關的一系列定義[4]:
- 假名化:刪除識別數據集和數據主體之間關聯的過程
- 假名數據:信息接收者無法識別患者真實身份的數據
- 假名標識符:無法明確識別自然人的人類標識符
Remove ads
發展
隨著計算機技術和網際網路的發展,網際網路服務迅速擴張,其對個人身份信息的索取、存儲和應用的訴求也隨著其規模擴大而迅速擴大。由於數據洩露導致的公民信息洩露事件頻發,各國監管機構因此提出了一系列數據保護相關法律法規,其中對 假名化存儲個人身份信息提出了不同的要求。
在歐盟,假名化是遵守歐盟新出台的《通用數據保護條例》 (GDPR)對個人信息安全存儲要求的一種方式。 [8]通過添加可重新識別個人的信息,可以將假名數據恢復到原始狀態。相反, 假名化是為了防止重新識別數據集內的個人。歐盟執委會通過的實施決定 (EU) 2021/914 第 18 條第 4 模塊腳註 2「要求以某種方式將數據 假名化,使個人不再被任何人識別……並且該過程是不可逆的。」 [9]違反這一要求可能導致網際網路服務商遭受2,000萬歐元或全球營收4%(取較大者)的罰款。
Remove ads
施姆雷斯案判決的影響:如何進行假名化
2020 年,活動人士施姆雷斯向愛爾蘭數據保護機構舉報稱,FaceBook將歐洲個人數據傳輸到其美國總部的做法違反GDPR要求,使得歐洲對個人隱私保護的努力付之一炬。儘管歐盟與美國之間簽署的《數據隱私框架協議》[10]載明美國實體「可以將個人數據傳輸美國」,但在20年歐洲法院的判決中,歐洲法院認為Facebook違反了GDPR[11]。此事發生後,歐盟多次就如何合規安全的向歐盟外傳輸數據提出要求。2021 年 12 月 9 日,歐洲數據保護監督機構 (EDPS) 強調,假名化是遵守施姆雷斯案判決的首要技術補充措施。 [12]不到兩周後,歐盟執委會強調,韓國也需要如同美國一樣遵守假名化要求。 [13]
2021 年 6 月,歐洲數據保護委員會(EDPB) 和歐盟執委會強調,符合 GDPR 的假名化要求是在符合歐洲法院施姆雷斯案裁決下使用部署在非歐盟地區伺服器時持續合法使用歐盟個人數據的最新技術補充措施,這顯著提高了符合 GDPR 要求的假名化的重要性。 [14]根據 GDPR 和最終的 EDPB Schrems II 指南, [15]術語「假名化」要求一種新的受保護的數據「狀態」,從而產生以下受保護的結果:
(1)保護直接、間接、准個人標識符,以及特徵和行為;
(2)為了使得數據在任何地方,包括在使用過程中都能得到保護,保護措施應設置在記錄(數據條目)和數據集級別——而不僅僅是在欄位級別
(3)通過在不同時間為各種目的動態分配不同的令牌來產生高熵(隨機)水平,防止通過馬賽克效應進行未經授權的重新識別。
假名化的做法、弱點和與匿名化的區別
假名化對數據攜帶的信息量是有損的——通常這會導致數據信息量減少。因而企業在進行假名化處理中需要謹慎選擇需要假名化處理的數據欄位。
選擇對哪些數據欄位進行假名化在一定程度上是主觀的。某些看起來不具有識別性的數據一般也被要求進行處理,如出生日期或郵政編碼——因為它們通常可從其他來源獲得,通過組合其他信息使得整條記錄更易關聯到特定個人。然而,將這些不太具識別性的欄位進行假名化會消除其大部分分析價值,因此實踐中通常將其替換為更不具識別性的數據——例如出生年份或更大的郵政編碼區域。
那些不太具識別性的數據欄位,例如出勤日期,為了不損失統計價值通常不會被假名化。這當然是有風險的,例如,只要預先知道幾個出勤日期,就很容易通過僅選擇具有該日期模式的人來在假名數據集中識別某人的數據。這是假名化的弱點之一——推理攻擊:一個著名的例子是美國在線搜索數據醜聞。 在此事件中,儘管AOL的數據集不包含任何明文個人識別信息,但是其中包含的用戶搜索歷史數據經過分析仍能將假名化存儲的用戶名指向現實世界的個人。
在保證假名數據無法被重新關聯到個人的同時保護假名數據的統計價值需要:
- 完善的信息安全基礎
- 控制分析師、研究人員或其他數據工作者造成隱私洩露的風險
相比完全無法追溯來源的匿名化數據,假名化數據可以追溯到其來源: [16]在匿名化中,所有允許回溯的與個人相關的數據都已被清除。
Remove ads
另見
參考
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads