交大法学SJTULawReview
No.4(2022)
个人医疗信息匿名化处理制度———兼评《个人信息保护法》相关条款
李润生
目次
  一、引言
二、匿名化处理的概念阐释和效果评述
个人敏感信息
  (一)匿名化处理的法律概念阐释
  (二)匿名化处理的法律效果评述
  (三)我国《个保法》相关条款评述三、个人医疗信息匿名化处理的特别规制:必要性证成和比较法经验
  (一)必要性证成
  (二)日本《下一代医疗基础设施法》的经验探析
  (三)欧盟和美国的制度介绍和比较  (四)我国《个保法》相关条款评述四、个人医疗信息匿名化处理制度的构建:具体方案及论证
  (一)打牢地基:完善一般性的匿名化处理制度
  (二)筑好高楼:对个人医疗信息的匿名化进行特别规制
摘要 构建完善的匿名化处理制度是化解个人医疗信息利用困局的可行选择。匿名化是指通过
对个人信息的技术处理,使得个人信息主体无法被识别,且处理后的信息不能被复原的过程。按照法
定标准匿名加工后的信息不再属于个人信息,从而不再受同意规则之约束。个人医疗信息具有特殊
性,既应进行更高标准之保护,又应推动更高程度之利用,有必要予以特别规制。我国《个人信息保护
法》关于匿名化制度的规定仍有不少缺憾,首先应当补齐短板,形成制度闭环,完善一般性的匿名化处
理制度。在此基础上,我国应对个人医疗信息的匿名化进行特别规制,由政府统一认定汇集和匿名加
工个人医疗信息的专门机构,规定更严格的准入标准和工作流程,由认定机构对信息的安全负责,且
认定机构自信息控制者接收个人医疗信息时适用默示同意规则。
关键词 匿名化 个人医疗信息 明示同意 默示同意 特别规制
北京中医药大学人文学院法律系副教授、法学博士。本文系北京市社会科学基金青年项目“疫情防控视野下互联网医疗法律规制问题研究”(项目编号:20FXC020)的阶段性研究成果。
一、引  言
我们已进入大数据时代。大数据技术在医疗领域已有广泛应用并带来巨大价值。例如,本次新冠肺炎疫情期间,我国就广泛运用大数据技术对病毒感染者的生活轨迹进行梳理,追踪人接触史,为精准抗疫提供技术支撑;一位患者曾表示自己并无重点疫区接触史,但经大数据排查,确认其曾经至少接触过三位来自重点疫区的潜在患病人士。〔1〕2020年2月,中央网络安全和信息化委员会办公室专门印发了《关于做好个人信息保护利用大数据支撑联防联控工作的通知》(以下简称《通知》),鼓励各类组织运用大数据技术防控疫情。和2003年的SARS相比,大数据技术的广泛应用是新时期传染病防控的重要特征。此外,大数据技术在药物开发、辅助诊断、医院管理等领域均有广泛应用。
世界各国均十分重视医疗信息的流通和利用,并通过立法予以体现和引导。例如,日本2015年全面修订其《个人信息保护法》的主要目标之一就是“确保个人信息的正当且有效利用从而促进新兴产业的创
造、激发经济社会的活力、实现国民生活的富足”〔2〕;2018年其颁布的《下一代医疗基础设施法》(次世代医療基盤法,NextGenerationInfrastructureAct)更是将医疗信息作为重要的基础设施,对《个人信息保护法》所创设的匿名化处理制度进行了针对性改造,进一步便捷了医疗信息的汇聚和利用〔3〕。欧盟《一般数据保护条例》(GeneralDataProtectionRegulation,以下简称GDPR)虽被称为“史上最严个人信息保护规范”,但个人数据〔4〕的流通和利用始终是其追求的核心目标之一。〔5〕美国医疗信息领域的主要规范性文件是健康和人类服务部(HHS)依据《健康保险可携性和责任法》(HealthInsurancePortabilityandAccountabilityAct,HIPAA)授权制定的《隐私规则》(PrivacyRule)和《资安规则》(SecurityRule),其采行了所谓的“下游保护”(downstreamprotection)模式,即只规制个人医疗信息的使用和披露行为而不规制搜集行为,这为医疗信息的搜集和利用创造了很大空间。〔6〕我国《个人信息保护法》(以下简称《个保法》)已于2021年11月1日起正式实施,该法第1条也明确将“促进个人信息合理利用”作为重要的规制目标。正如学者所言,“几乎所有国家和地区都将个人信息的流通和利用作为最终目标”〔7〕。
不过,个人医疗信息颇为特殊,各国一般将其界定为个人敏感信息,给予特殊保护,要求严格适用知情同意规则,这抑制了个人医疗信息的流通和利用。一般而言,搜集和使用个人医疗信息前应征得信息主
体的明示同意,默示同意规则不得适用。例如,日本《个人信息保护法》区分了个人一般信息和个人敏感信息,对于个人一般信息的搜集和使用,允许适用默示同意规则(又称选择退出规则,即OPT OUT)〔8〕,而搜集和使用个人敏感信息则只能适用明示同意规则(又称选择进
李润生:论个人医疗信息的匿名化处理制度
〔1〕
〔2〕〔3〕〔4〕〔5〕
〔6〕
〔7〕〔8〕参见王建:《中国利用大数据技术助力疫情防控》,载新华社百家号2020年2月11日,https://
baijiahao.baidu.com/sid=1658206416174721107&wfr=spider&for=pc。
参见日本《个人信息保护法》第1条。
岡本利久「次世代医療基盤法について」医療と社会28巻3号(2018年)333—338頁参照。
“数据”和“信息”的含义较为接近,本文中二者通用,不作区分。
参见京东法律研究院:《欧盟数据保护宪章:〈一般数据保护条例〉GDPR评述及实务指引》,法律出版社2018年版,第15页。
SeeNicolasP.Terry,犅犻犵犱犪狋犪犘狉狅狓犻犲狊犪狀犱犎犲犪犾狋犺犘狉犻狏犪犮狔犈狓犮犲狆狋犻狅狀犪犾犻狊犿,24HealthMatrix:JournalofLaw Medicine65106(2014).
高富平:《个人信息保护:从个人控制到社会控制》,载《法学研究》2018年第3期,第98页。
OPT OUT规则,即选择退出、默示同意规则,是一种默认同意机制,即信息主体不明确反对即推定其同意搜集和使用个人信息。
入规则,即OPT IN)〔9〕。美国在一般信息领域,通常允许适用OPT OUT规则,但在医疗信息领域,《隐私规则》则明确要求适用OPT IN规则。根据我国《个保法》第14、29条的规定,无论个人一般信息还是个人敏感信息,在处理前均应获得信息主体的明示同意,个人敏感信息的处
理更应获得信息主体的“单独同意”,这明显受到了GDPR的影响。总之,各国普遍在个人医疗信息领域确立了明示同意规则,这导致医疗数据的大范围搜集事实上难以执行,或成本高昂,同时,数据体量的局限性又反过来削弱了大数据分析的能力:大数据分析要求样本数据达到必要体量,数据体量越大则数据价值越高,并且呈非线性增长。〔10〕显然,这对于大数据抗疫及后疫情时代信息价值的挖掘显著不利。那么,如何破解上述难题呢?如何兼顾个人医疗信息的保护和利用呢?笔者认为,构建完善的匿名化处理制度是一个可行的选择。
本文将首先对一般性的匿名化处理制度进行阐释,进而论证个人医疗信息匿名化处理特别规制的必要性及可行方案,并对我国《个保法》的相关条款进行深入评述、提出完善方案。应予指出的是,本文虽以个人医疗信息的研究为切入点,但其论证路径和研究思路具有一定程度之普适性。
二、匿名化处理的概念阐释和效果评述
论证匿名化处理机制的可行性,我们首先需要深入分析匿名化处理的法律概念和法律效果。(一)匿名化处理的法律概念阐释
何为“匿名化”(anonymization)?我国《个保法》第73条第4项规定:“匿名化是指个人信息经过处理无法识别特定自然人且不能复原的过程。”日本《个人信息保护法》第2条规定:“匿名化信息是指按照规定的方法对个人信息进行加工后获得的无法识别特定个人,并无法得到恢复的信息。”
可见,两国关于“匿名化”的界定基本一致。学界也持类似观点,例如,有学者认为,“匿名化信息是指该信息先前得以用之辨识特定个人,但经匿名化处理后,此个人辨识性不再可能,而此辨识之不可能原因在于将所有可连结至特定个人之资料,皆永久去除”。〔11〕总之,匿名化信息有两个核心特征:一为无法识别出特定个人,二为识别性资料被永久删除而无法回复。
若要真正理解“匿名化”,必须将其与相似概念进行比较。欧盟GDPR除规定“匿名化”外,〔12〕还界定了“隐名化”(pseudonymization)的概念,“隐名化是一种使个人数据在不使用额外信息的情况下不指向特定数据主体的个人数据处理方式,若该处理方式将个人数据与其他额外信息分别存储,凭技术性和组织性措施无法指向一个可识别或被识别的自然人”。〔13〕这基本等同于我国《个保法》第73条第3项所界定的“去标识化”概念,“去标识化是指个人信息经过处理,使其在不借助额外信息的情况下无法识别特定自然人的过程”。去标识化建立在个体基础之上,保留了个体颗粒度,采用假名、加密、哈希函数等技术手段替代对个人信息的标识。〔14〕可见,“隐名化”强调的是“不借助额外信息的情况下无法识别出特定个人”,即排除个人信息的“直接识别性”,而“匿名化”则进一步要求排除个人信息的“间接识别性”,即参照比对额外信息后仍无法识别出特定个人。此交大法学 2022年第4期
〔9〕〔10〕〔11〕〔12〕〔13〕〔14〕OPT IN规则,即选择进入、明示同意规则,是指除非获得信息主体的明示同意,不得搜集和使用个人信息。参见吴伟光:《大数据技术下个人数据信
息私权保护论批判》,载《政治与法律》2016年第7期。
参见张陈宏于《中原财经法学》2018年第40期所发文章。
SeeGDPRPreface(26).
SeeGDPRArticle4.
参见《信息安全技术个人信息安全规范(GB/T352732020)》第3条。
外,“隐名化”并不要求将识别性资料永久删除,而允许以代码或假名替代,因此,“隐名化”又被称作“假名化”。〔15〕总之,“隐名化”是一种可逆的去连结化,而“匿名化”则是一种不可逆的去连结化,“隐名化”的去连结程度低于“匿名化”。
美国《隐私规则》则使用了“去识别化”(de identification)的概念。“去识别化信息是指无法识别出特定个人且没有合理理由相信可以被用来识别出特定个人的信息。”〔16〕具体判定标准为:一位具有统计学与科学背景且知道如何对个人信息去连结的专家出具书面分析意见认定,该信息被第三者取得后,将其单独或与其他合理方法可取得的信息比照后,只有非常小的风险可以识别出该信息所连结的主体。〔17〕此外,《隐私规则》还设定了安全港(safeharbor)规则,即只要去除十八种识别性资料,即为去识别化信息。〔18〕这十八种资料几乎包含了所有我们能想到的识
别性资料。正如学者所言,虽然《隐私规则》没有特别强调必须将识别性资料永久删除,但其对信息去连结化程度的要求已经十分接近甚至超过“匿名化”了。〔19〕因此,“去识别化”的实效基本等同于“匿名化”。
学者对多个国家的相关概念进行仔细分析后,做了如下区分和界定:(1)匿名化(anonymized)信息,是指将识别性资料不可逆转地删除的信息;(2)隐名化(codedorpseudonymized)信息,是指识别性资料被代码或假名替代而非永久删除的信息;(3)去识别化(de identified)信息,是指将识别性资料按照《隐私规则》设定的标准去除的信息。〔20〕这和上述分析基本一致,具体比较请参见表1。厘清上述概念对于我们进一步讨论匿名化处理的法律效果非常重要。
表1 三种概念的比较
概  念含  义识别资料是
否永久删除去连结化程度要求
匿名化(anonymization)
信息按照规定的方法对个人信息进行加工
后获得的无法识别特定个人并无法得
到恢复的信息
是无法直接或间接识别
出特定个人
隐名化(pseudonymization)
信息按照规定的方法对个人信息进行加工
后获得的不借助额外信息便无法识别
出特定个人的信息
否,以假名或代码
替代
无法直接识别出特定
个人
去识别化(de identification)
信息按照《隐私规则》设定的标准去除识别
性资料后得到的信息未明确要求
无法直接或间接识别
出特定个人
李润生:论个人医疗信息的匿名化处理制度
〔15〕〔16〕〔17〕〔18〕
〔19〕〔20〕参见张陈弘:《个人资料之认定———个人资料保护法适用之启动阀》,载《法令月刊》2016年第5期。See45C.F.R.§164.514(a).
See45C.F.R.§164.514(b)(1).
这十八种识别性资料为:(1)姓名;(2)所有比州单位还要小的地理位置;(3)所有与个人有直接连结的数
据元素(除了年份);(4)电话号码;(5)传真号码;(6)信箱;(7)社会安全号码;(8)医疗记录编号;(9)健康照顾计划受益人编号;(10)账户号码;(11)证书号码;(12)车辆识别和序列编号;(13)设备识别或序列编号;(14)网页网址;(15)通讯协议位置编号;(16)生物识别资料;(17)全脸照片或其他可比较影像;(18)任何其他独特可识别的号码、特征或编号。See45C.F.R.§164.514(b)(2)(i).
SeeDavidM.Parker,StevenG.Pine,ZacharyW.Ernst,犘狉犻狏犪犮狔犪狀犱犐狀犳狅狉犿犲犱犆狅狀狊犲狀狋犳狅狉犚犲狊犲犪狉犮犺犻狀狋犺犲犃犵犲狅犳犅犻犵犇犪狋犪,123PennStateLawReview703732(2019).
SeeMarkA.Rothstein,BarthaMariaKnoppers,HeatherL.Harrell,犆狅犿狆犪狉犪狋犻狏犲犃狆狆狉狅犪犮犺犲狊狋狅犅犻狅犫犪狀犽狊犪狀犱犘狉犻狏犪犮狔,44JournalofLaw,Medicine&Ethics161172(2016).
  (二)匿名化处理的法律效果评述
目前来看,各国个人信息保护法的规制对象仅为个人信息,非个人信息不适用个人信息保护法,也就是说,非个人信息的搜集和使用不受同意规则的约束。例如,日本《个人信息保护法》第1条规定:“本法规制政府和企业等处理个人信息的行为。”欧盟GDPR第1条规定:“本条例制定与个人数据处理相关的自然人保护规则及个人数据自由流动的规则。”我国《个保法》第3条也规定:“在中华人民共和国境内处理自然人个人信息的活动,适用本法。”那么现在的问题是,匿名化处理后的信息是否就不再属于个人信息了呢
这需要进一步考察个人信息的定义。日本《个人信息保护法》第2条规定:“个人信息是指可直接或与其他信息简单容易地比对后识别出特定个人的信息。”我国《个保法》第4条规定:“个人信息是以电子或者其他方式记录的与已识别或者可识别的自然人有关的各种信息。”可见,各国关于个人信息的定义中均包含了“直接识别性”和“间接识别性”的要件,只有同时排除“直接识别性”和“间接识别性”的信息,才属于非个人信息。应当说,通过匿名加工程序去除个人信息的“直接识别性”较容易实现,但问题是,能否由此去除个人信息的“间接识别性”呢?笔者认为,这需要继续考察下面两个问题,即“间接识别性”标准的设定和辅助性制度的保障。
1.“间接识别性”标准的设定探析
信息“间接识别性”标准的设定是个复杂且易生争议的问题。应当说,在信息技术高速发展的当下,完全
排除信息的“间接识别性”几无可能。〔21〕根据学者的研究,即便按照《隐私规则》设定的严苛标准删除所有十八种识别性资料,这种信息仍有0.01%到0.25%的可能性被重新识别。〔22〕在一个案例中,哈佛大学拉坦亚·斯维尼(LatanyaSweeney)教授仅使用出生日期、性别、选民登记标识符及保留在出院记录中的等公开信息,便确认了时任马萨诸塞州州长威廉·威尔德(WilliamWeld)的健康记录,斯维尼教授坚信,在大数据时代和大数据技术下,完全不可识别的数据是不存在的。〔23〕因此,各国均设定了适当的标准对信息“间接识别性”的范围进行限定。据笔者研究,各国主要通过主客观相结合的标准进行限定:主观标准解决以谁的识别能力作为判断基准的问题,客观标准解决信息自身的去连结化应达到何种程度的问题。下文详述之。(1)主观标准探析
综合来看,主要有以下三种代表性的主观标准。其一,“一般人标准”,即以社会一般多数人的识别能力作为判断基准,不要求具备任何特殊的主观条件,仅以社会平均识别能力为基准。如果按照社会平均条件无法从中识别出特定个人,则该信息不属于个人信息。这种标准大大限缩了个人信息的范围,有利于信息的流转和利用,但显然对信息主体的保护不够周全。其二,“信息处理者标准”,即以信息处理者的识别能力作为判断基准。亦即,信息是否具有间接识别性,应从信息搜集和使用者的主观条件出发,本无一致性标准,应在个案中审查判断。例如,医疗机构搜集和利用信息时,应以医疗机构的识别能力作为判断基准;制药公司搜集和处理信息时,则应以制药公司的识别能力作为判断基准。因此,不同处理
者掌握的资料数量和性质不同,必然会产生不同的识别结果,这也导致了认定的相对化问题。信息处理者通常具有较强的识别能力,这事实上扩大了个人信息的范围,提升了保护标准,也为信息利用预留了必要空间,较好地平衡了保护和利用之间交大法学 2022年第4期
〔21〕〔22〕〔23〕SeeParker,Pine,Ernst,狊狌狆狉犪note〔19〕.
SeeSharonaHoffman,犆犻狋犻狕犲狀犛犮犻犲狀犮犲:犜犺犲犔犪狑犪狀犱犈狋犺犻犮狊狅犳犘狌犫犾犻犮犃犮犮犲狊狊狋狅犕犲犱犻犮犪犾犅犻犵犇犪狋犪,
30BerkeleyTechnologyLawJournal17441805(2015).SeeParker,Pine,Ernst,狊狌狆狉犪note〔19〕.