热门问题
时间线
聊天
视角
假名化
来自维基百科,自由的百科全书
Remove ads
假名化(Pseudonymization)是一种数据管理和去识别化过程。该过程通过使用人工标识符或假名取代原始数据记录内的个人身份信息 [1]实现了在不影响数据分析和数据处理的前提下做好个人隐私信息保护工作。
历史
假名这一概念在计算机加密中最早在1981年由David L. Chaum在描述一种使电子邮件接收者无法追踪发信人的论文[2]中提出,文中作者提出了一种通过公私钥生成的数字化假名代替真实名称来进行不记名的工作(如投票计数)的方法。
2000年,Andreas Pfitzmann在题为《匿名性、不可观测性和伪 假名性ーー一个术语学建议》一文中,首次对名词“假名”及其动词形式“假名化”做了正式定义——假名是一种可以识别某一主体的标识符,而该主体被称为假名的持有者。[3]
文中举例:在一个互发消息的场景下,没有假名时,发送者和接收者都在使用其可以联系到真实世界个人的个人信息进行交流,而应用假名后,发送者通过长时间使用同一个假名,可以做到与接收者建立联系的同时,隐匿自己的真实个人信息,从而做到对个人信息的保护。
2008年,ISO组织在ISO-TS-25237-2008 - Health informatics — Pseudonymization标准中提出了在医疗健康领域信息处理过程中,如何使用假名化技术在国内或跨境通信中保护患者个人隐私的方法。标准中提出了假名化相关的一系列定义[4]:
- 假名化:删除识别数据集和数据主体之间关联的过程
- 假名数据:信息接收者无法识别患者真实身份的数据
- 假名标识符:无法明确识别自然人的人类标识符
Remove ads
发展
随着计算机技术和互联网的发展,互联网服务迅速扩张,其对个人身份信息的索取、存储和应用的诉求也随着其规模扩大而迅速扩大。由于数据泄露导致的公民信息泄露事件频发,各国监管机构因此提出了一系列数据保护相关法律法规,其中对 假名化存储个人身份信息提出了不同的要求。
在欧盟,假名化是遵守欧盟新出台的《通用数据保护条例》 (GDPR)对个人信息安全存储要求的一种方式。 [8]通过添加可重新识别个人的信息,可以将假名数据恢复到原始状态。相反, 假名化是为了防止重新识别数据集内的个人。欧盟委员会通过的实施决定 (EU) 2021/914 第 18 条第 4 模块脚注 2“要求以某种方式将数据 假名化,使个人不再被任何人识别……并且该过程是不可逆的。” [9]违反这一要求可能导致互联网服务商遭受2,000万欧元或全球营收4%(取较大者)的罚款。
Remove ads
施姆雷斯案判决的影响:如何进行假名化
2020 年,活动人士施姆雷斯向爱尔兰数据保护机构举报称,FaceBook将欧洲个人数据传输到其美国总部的做法违反GDPR要求,使得欧洲对个人隐私保护的努力付之一炬。尽管欧盟与美国之间签署的《数据隐私框架协议》[10]载明美国实体“可以将个人数据传输美国”,但在20年欧洲法院的判决中,欧洲法院认为Facebook违反了GDPR[11]。此事发生后,欧盟多次就如何合规安全的向欧盟外传输数据提出要求。2021 年 12 月 9 日,欧洲数据保护监督机构 (EDPS) 强调,假名化是遵守施姆雷斯案判决的首要技术补充措施。 [12]不到两周后,欧盟委员会强调,韩国也需要如同美国一样遵守假名化要求。 [13]
2021 年 6 月,欧洲数据保护委员会(EDPB) 和欧盟委员会强调,符合 GDPR 的假名化要求是在符合欧洲法院施姆雷斯案裁决下使用部署在非欧盟地区服务器时持续合法使用欧盟个人数据的最新技术补充措施,这显著提高了符合 GDPR 要求的假名化的重要性。 [14]根据 GDPR 和最终的 EDPB Schrems II 指南, [15]术语“假名化”要求一种新的受保护的数据“状态”,从而产生以下受保护的结果:
(1)保护直接、间接、准个人标识符,以及特征和行为;
(2)为了使得数据在任何地方,包括在使用过程中都能得到保护,保护措施应设置在记录(数据条目)和数据集级别——而不仅仅是在字段级别
(3)通过在不同时间为各种目的动态分配不同的令牌来产生高熵(随机)水平,防止通过马赛克效应进行未经授权的重新识别。
假名化的做法、弱点和与匿名化的区别
假名化对数据携带的信息量是有损的——通常这会导致数据信息量减少。因而企业在进行假名化处理中需要谨慎选择需要假名化处理的数据字段。
选择对哪些数据字段进行假名化在一定程度上是主观的。某些看起来不具有识别性的数据一般也被要求进行处理,如出生日期或邮政编码——因为它们通常可从其他来源获得,通过组合其他信息使得整条记录更易关联到特定个人。然而,将这些不太具识别性的字段进行假名化会消除其大部分分析价值,因此实践中通常将其替换为更不具识别性的数据——例如出生年份或更大的邮政编码区域。
那些不太具识别性的数据字段,例如出勤日期,为了不损失统计价值通常不会被假名化。这当然是有风险的,例如,只要预先知道几个出勤日期,就很容易通过仅选择具有该日期模式的人来在假名数据集中识别某人的数据。这是假名化的弱点之一——推理攻击:一个著名的例子是美国在线搜索数据丑闻。 在此事件中,尽管AOL的数据集不包含任何明文个人识别信息,但是其中包含的用户搜索历史数据经过分析仍能将假名化存储的用户名指向现实世界的个人。
在保证假名数据无法被重新关联到个人的同时保护假名数据的统计价值需要:
- 完善的信息安全基础
- 控制分析师、研究人员或其他数据工作者造成隐私泄露的风险
相比完全无法追溯来源的匿名化数据,假名化数据可以追溯到其来源: [16]在匿名化中,所有允许回溯的与个人相关的数据都已被清除。
Remove ads
另见
参考
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads