在数字化时代,数据的价值日益凸显。匿名化处理作为平衡数据利用与个人数据保护的关键手段,备受关注。然而,匿名化数据并非绝对安全,再识别风险始终存在,一旦数据被重新识别为个人数据,个人隐私与数据安全将面临威胁。因此,构建全流程的匿名化数据再识别风险防范体系至关重要。
风险防范的必要性
个人数据具有私益与公益双重属性。从私益角度观察,其包含大量个人隐私信息,且与个人尊严紧密相连;从公益层面来看,数据的流通利用能够促进社会发展,如推动数字经济创新、丰富公共服务等。
匿名化处理虽能于一定程度上在保护个人隐私的同时释放数据使用价值,但无法完全消除数据与数据主体之间的关联。当外部主体将匿名化数据与其他信息相结合时,有可能重新识别出数据主体,使匿名化数据恢复为个人数据,数据流通再次受到法律的严格约束。匿名化数据被再识别,不仅会损害数据主体利益,而且可能引发公众对数据开发利用的信任危机,影响数据产业的健康发展。因此,对匿名化数据的再识别风险进行有效防范,是保障数据安全、促进数据合理利用的必然要求。
前端风险防范
前端风险防范是整个再识别风险防范体系的基石,其核心在于通过有效的匿名化处理,从源头上降低再识别风险。
匿名化的判断标准——定性与定量结合。我国匿名化判断标准的发展经历了从单纯概念定性到引入定量评估的过程,但目前仍存在不足。定性标准包括宏观上的“无法识别”判断标准与微观上间接识别情形“其他数据”的范围判定两项内容。从宏观视角观察,国际上主流的“合理可能性标准”追求“零风险”,成本过高难以实践;“不成比例投入标准”将识别成本与数据效益对比,更具合理性。从微观视角观察,“一般人标准说”标准宽松,“特别标准说”要求过高,“有心侵入者标准”则较为适中,符合我国个人数据匿名化实践需求。因此,我国宜在宏观上采用“不成比例投入标准”判断“无法识别”,在微观上采用“有心侵入者标准”界定“其他数据”范围。定量标准一般通过统计学和数学建模等量化形式确定,并以标识符的唯一性、敏感标识符分布距离、数据集规模等要素界定可识别性数值。判断匿名化的有效性需设定最大可识别风险阈值,对数据进行处理并评估可识别风险,再与阈值进行比对。我国宜尽快确定并发布各领域最大风险阈值标准,如设置高、中、低三个等级,适用于不同类型的数据;同时制定评估准则,综合运用多种方法设计国家技术标准,并持续更新。在定性与定量标准相结合的过程中,宜以定性为原则性标准,定量为具体化标准,在不同情形下发挥二者的作用,确保匿名化判断的科学性与合理性。
匿名化的判断视角——相对性视角。国际上关于匿名化的判断视角主要有绝对性和相对性两种视角。绝对性视角要求所有主体都无法识别出数据主体,标准过于严格,会严重限制他人对原始数据的利用,且在现实中难以实现。相对性视角即“数据接收者视角”,以数据接收者能否识别数据主体为判断依据,更符合社会对数据进行利用的实际需求。我国在一般情况下宜采用相对性视角,只要数据接收者无法识别,就应认定数据已实现匿名化。但对于涉及国家安全、社会公共安全的个人数据,应采取更严格的相对性视角,由相关责任主体确保已删除足以重新识别的信息。
匿名化流程可采用国际通行的“三级分类制度”。在处理前,对筛选出的数据结合多因素分级分类,确定最大风险阈值,并进行数据保护影响评估;处理过程中,按可识别程度对数据要素进行分类,对直接标识符脱敏,对间接标识符实施泛化或随机化处理,并遵循比例原则平衡数据安全性与可用性;处理后,评估匿名化程度并与最大风险阈值进行对比,根据结果决定数据是否公开及公开方式,对不符合标准的数据进行重新处理。
中端风险防范
在完成前端匿名化处理后,随着外部环境变化,匿名化数据仍面临被再识别的风险。中端风险防范宜通过再识别风险评估与实时监控风险巩固前端成果,减轻后端压力。
评估时间——定期与应急结合。我国宜采用以固定周期评估为主、突发事件评估为辅的模式。固定评估时间建议确定为每年一次。突发事件指可能导致匿名化数据被再识别的重大事件,如数据使用者、系统、安全环境发生变化等。数据持有机构应及时关注内外部数据环境,在突发事件发生或收到投诉后,迅速进行再识别风险评估,调整风险类别,并记录相关信息。定期与应急相结合的评估模式既能保障数据环境的日常维护,又能及时应对突发风险。
评估方式——利用综合攻击模型。中端再识别风险评估与前端风险评估在动机、程序和内容上存在差异。攻击模型是目前较为有效的评估方法,其具体分类主要有按动机、按主体和综合型三种模式。按动机分类一般有“动机温和的攻击者”和“动机强烈的攻击者”两类模型;按主体分类一般有三类主体场景,不同场景对应的风险程度不同。我国宜采用主体、动机与方法相结合的新加坡式综合性评估方式,同时根据技术发展情况及时调整评估模式。
评估结果——分级处理。相关责任主体应根据评估结果将数据集划分出高、中、低三个风险等级,分别设置最大风险阈值,并制定不同的处理路径。高风险数据集需采取严格的外部和内部措施,限制数据接收者和访问人数,对数据进行加密处理并在必要时销毁数据,同时重启匿名化流程;中风险数据集只需合理约束数据使用环境,控制接收者访问“其他信息”的权限;低风险数据集无需限制,可根据接收者请求适当降低匿名化程度,促进数据利用。分级处理实现了对具有不同风险等级数据的差异化管理,平衡了数据安全与利用效率。
后端风险防范
在匿名化数据被再识别后,应通过有效的处理措施减少损失,并追究相关主体责任,警示其提升风险防范意识。
第一,被再识别后的处理措施。
一旦发生再识别情形,相关主体应立即启动应急机制。应马上停止相关数据与导致再识别的其他数据的开放共享,对数据采取加密、增加防火墙等技术保护措施,并确保技术措施与事件规模和危害性相适应。同时,启动内部报告机制,明确各级责任人,规定报告时间和流程,对于大规模再识别事件,要进行内部通报并提供补救指导。相关部门需及时向数据接收者发出通知,收回或严格限制数据访问权。对于已下载数据的接收者,应要求其删除数据并承诺不再利用,否则将承担法律责任;对于完全开放的数据,应通过发布公告进行通知。此外,相关责任部门要对再识别给数据主体造成的负面影响进行评估,并根据评估结果决定是否通知数据主体。若需通知,应在规定时间内告知详细信息。
第二,被再识别后的责任追究。
责任追究机制能促使相关责任主体在前端和中端风险防范中更加尽职尽责。责任主体的失职行为可能导致刑事、行政和民事责任。以民事责任为例,若主体因违反数据的安全保障义务导致个人信息权利受损,需承担侵权责任。归责原则以过错责任为主,具体案例中宜适用过错推定原则。当责任主体的过错与攻击者再识别行为共同导致损害时,宜按“补足的因果关系”理论承担相应责任。损害结果包括财产和精神损害,涉精神损害赔偿的主张在符合条件时应得到支持。
(作者系上海社会科学院法学研究所研究员)
上一篇:
“紫丁香”守护未成年人兴趣领域
|
下一篇: 推动公共数据资源高质量开发利用 |