谢琳:大数据时代个人信息边界的界定
摘要
个人信息受“识别性”和“相关性”两方面的限制,即当某特定的人可被识别时,与该人有关的信息才属于个人信息。在大数据时代,“识别性”和“相关性”边界逐步扩大。在识别性方面,直接识别标准已向间接识别标准过渡,且大数据识别技术的进步和数据的海量化极大提高了信息的识别可能性,导致匿名化的崩溃。在相关性方面,随着大数据画像等分析技术的发展,许多原本不能反映个体特征的信息也可能成为个人信息。对此,个人信息应采用最宽泛的定义,只要存在识别和相关的可能性,均应纳入个人信息的范畴,并对个人信息进行风险层级的划分,以相应风险层级确立相应的合规义务,从而避免个人信息保护制度因保护范围过宽而难以践行,同时也为数据控制者采取相应的保障措施提供有效激励。
大数据时代个人信息边界的界定
撰文|谢  琳
谢琳,中山大学法学院副教授。
在大数据时代,随着大数据分析技术的迅猛发展,制定系统全面的个人信息保护法迫在眉睫。近年来,欧盟各国、日本、新加坡等纷纷制定或修订其个人信息保护法。我国全国人大常委会近期也已将个人信息保护法列入立法规则。其中,个人信息边界的界定是制定个人信息保护法的基本问题。只有当某个信息属于个人信息时,该信息才受保护。然而,在大数据时代,个人信息的边界呈现逐步泛化的趋势,难以清楚界定。能否有效应对大数据时代个人信息边界扩大的问题,直接决定了个人信息保护制度能否有效运行。本文试图对个人信息边界进行探讨,并构建相应的风险保护路径。
一、个人信息概念的界定
个人信息以可识别性作为其赋权基础。影响深远的世界经合组织(OECD)隐私指南、亚太隐私框架以及欧盟1995年个人数据保护指令均将个人信息定义为“与已识别或可识别的人有关的任何信息”。该定义可理解为,当某特定的人可被识别时,与该人有关的任何信息即为个人信息。
美国国家标准与技术研究院颁布的《个人可识别信息的保密性保护指南》进一步指出,个人信息可分为两种类型的信息,即识别信息和关联信息。识别信息是指用于识别或追踪某个特
定的人的信息,例如姓名、社会保障号码、出生日期、生物信息等;关联信息是指与该人相关联的其他任何信息,例如医疗、教育、金融和工作信息等。举例而言,手机号码是识别信息,而关于该手机号码的每月话费、通话时长、开机状态等则属于关联信息;号是识别信息,而该号上的聊天记录、点赞信息等则属于关联信息。
除识别信息以外,对关联信息也应予以保护。关联信息能够反映个人的个体特征,具有应受保护的人格利益。我国首部涉及个人信息保护的法律《网络安全法》将个人信息定义为“能够单独或者与其他信息结合识别自然人个人身份的各种信息”。该定义并没有明确将关联信息涵盖在内。然而我国相关判例及专家意见倾向性认为,对于该定义应做广义解释,不仅包括“识别自然人个人身份”的识别信息,还应包括与该可识别的自然人相关的关联信息。比如,近期我国判决,用户手机的开关机状态反映了用户生活状态或工作状态的转变,移动服务的开机提醒业务未经被叫人同意向呼叫人告知被叫人手机已开机,使呼叫人可对被叫人可能身处的状态作出合理预见或推测,这一行为侵犯了个人信息安全。洪延青也指出,对我国网络安全法的“个人身份”应做广义解释,不仅包括个人的社会身份,如姓名、身份证号码等,还应包括反映个人的个体特征的身份(即关联信息),如抑郁症等。
为保护关联信息,我国2018年5月1日开始实施的推荐性国家标准《个人信息安全规范》第3.1条专门增加了“反映特定自然人活动情况的各种信息”。而我国以往的其他相关规定也或多或少涵盖了关联信息的某些类型。譬如、最高人民检察院在《关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》中增列了“财产状况、行踪轨迹”,工业和信息化部颁布的《电信和互联网用户个人信息保护规定》涵盖了“识别用户使用服务的时间、地点等信息”。但上述规定采用的是“活动情况”“财产状况”等具体化描述,仍无法全面涵盖所有需要保护的个人信息类型。对此,我国可考虑采用世界主流定义的表述——“与已识别或可识别的人有关的任何信息”。该定义的“任何信息”的表述就是为了给个人信息设立一个宽泛而周延的概念,其中既包括客观信息,如血液中存在的某些物质、指纹等,也包括主观信息,如小孩的画画、专家的意见或评价等。
根据该定义,个人信息的保护范围应受两方面的限制:第一,该人应该是已被识别或可被识别的(识别性);第二,信息应与该人有关(相关性)。在大数据时代,“识别性”和“相关性”的边界日益泛化,还需对此进行重新界定。
二、识别性的界定
识别性包括“已识别”和“可识别”两种情况。“已识别”也称直接识别,指无需借助其他信息即可识别出某一特定的人,例如身份证号码。而“可识别”则为间接识别,指存在识别的可能性,与其他信息相结合能够识别该人。
早期观点倾向性认为仅需保护直接识别信息。然而,在大数据时代,人们愈来愈倚重各种各样的设备与外界产生联系,IP地址、cookie、手机MAC地址、IMEI码等设备信息是否具有识别性的问题引起了巨大争议。直接识别标准的支持者认为,仅识别至某一设备,而并非识别本人,不属于个人信息。例如,在我国2015年cookie隐私第一案中,二审法院便认为,“百度网讯公司个性化推荐服务收集和推送信息的终端是浏览器”,而并非是原告本人。在2015年英国谷歌定向行为广告案中,被告谷歌主张,依托浏览器产生的信息不是个人信息,并没有识别用户的姓名。理由类似于,车牌号码并不代表本人,除非已经查询到本人的身份,否则追踪该车的行踪并不受个人信息保护制度的限制。
侵害公民个人信息
但实际上,设备信息存在与其他信息相结合进行识别的可能性。首先,设备信息本身有可能与其他识别信息相结合识别出该特定的人。比如对于谷歌用户的cookie识别符,谷歌有可能结合谷歌Gmail账号等信息识别出该用户。再如IP地址,欧盟29条工作组早在2008年意见中
就明确指出,虽然IP地址在多数情况下不能由搜索引擎所识别,但网络连接提供商(如宽带服务提供商)是拥有IP地址背后的用户身份数据的。法律执行和国家安全官方机构能够访问这些身份数据,在某些欧盟成员国甚至能在民事诉讼中调取这些数据,例如针对网络用户下载盗版版权作品的行为,版权权利人可提起版权侵权民事诉讼,要求网络连接提供商披露IP地址背后的用户身份信息。
其次,通过对该设备所产生的关联信息(如搜索、浏览记录等)进行用户画像分析(Profiling),也有可能识别出该用户。cookie等设备信息是具有唯一指向性的识别符(Unique Identifier),通过这个识别符可以将该浏览历史与某个设备相联系,进而对该设备上的浏览历史进行叠加,建立用户画像,很可能识别出该人。欧盟2018年5月生效的《通用数据保护条例》(General DataProtection Regulation, GDPR)绪言30也明确指出这一点。欧盟29条工作组2007年在《关于个人数据概念的意见》中更是指出,识别应做广义解释。识别是指在人中区分出(Single Out)某一特定的人。姓名是区分出某一特定的人的常用方式,但并非是唯一方式,其他识别符也可以区分出某一特定的人。设备背后是用户本身,对某一设备的定向追踪能够识别该设备的行为,呈现出用户的社会、经济、心理等人格属性,并能够基于这些属性影响用户的决定,如定制个性化服务等。对此无需要求必须获悉该人的
姓名,只要能区分出某一特定的人即可。
IP地址等设备信息若存在识别的可能性,则存在使用风险,应受到保护。美国早期相关立法和学者只认可直接识别标准,但随着以精准营销为代表的数据分析产业的产生,立法者与学者也意识到精准营销等产业若不受规制,将造成不良影响,因而逐步认可对间接识别信息的保护。为回应精准营销的新商业风险,欧盟《通用数据保护条例》也明确将位置数据(LocationData)、在线识别符号(如IP地址、MAC地址、cookie等)纳入个人数据范围。由此可见,间接识别标准已被世界各国的立法所广为认可。我国网络安全法的“与其他信息结合识别”的表述即是对间接识别标准的认可。
对于识别标准的判定,有两种不同的路径,即相对路径和绝对路径。以欧盟为例,衡量信息是否可识别的标准是,“数据控制者及任何第三方”采用“所有可能合理采用的手段”是否可以将其识别。相对路径认为,“数据控制者及任何第三方”指的是,仅以获得信息的一方自身是否能够识别为判定标准。而绝对路径则认为,只要该信息能够被世界上某个机构所识别,则无论该机构是否实际上能够识别该信息,都视为可被识别。在欧盟2016年Breyer案中,虽然德国法院对判定路径的选择产生巨大争议,但欧洲法院最终支持绝对路径。采用绝对路径的观
点具有一定的合理性。如果将相对路径中的不具有可识别性的信息视为非个人信息,则对该信息的收集利用不受个人信息保护制度的规制,有可能导致信息随意流转至具有识别能力的机构手中而被识别,产生隐私风险。
三、匿名化的相对性
采用绝对路径虽然考虑了所有识别的可能性,但也导致匿名化豁免可能没有适用的空间。与可识别相对应的概念就是匿名化。个人信息的定义以“识别”为核心,匿名信息去除了原信息中的部分识别符,使之不再能够被识别,不再属于个人信息,例如去除了姓名和身份证号码后,“1957年生,男,工程师,收入7万”则非个人信息。个人信息保护制度将匿名化信息排除在其规制范围之外,其意义在于为信息流转提供一个可行的渠道。数据控制者可通过对已经收集的数据进行匿名化处理,从而达到自由利用或转让数据的目的。