主要观点总结
本书通过大量案例展示了混淆作为一种策略,如何帮助个体在数字监控和数据收集日益增长的背景下保护自己的隐私。作者定义了混淆为故意添加含糊、混乱或具有误导性的信息以干扰监视和数据收集的策略,旨在通过增加识别成本来防止数据处理者提取有价值信息。书中探讨了混淆的必要性,对信息不对称和隐私侵犯的现实情况进行了深入分析,进而引发对混淆的伦理与政治问题的讨论。书中还讨论了混淆与个人信息匿名化的关系,并探讨了AI时代语境下混淆的潜在问题。本书不仅为那些无法退出监控的人提供了减轻影响的方法,还从“用户自处理”的视角为个人信息保护法律的适用拓展了一个全新的问题领域。
关键观点总结
关键观点1: 混淆的定义与目的
混淆是故意添加含糊、混乱或具有误导性的信息以干扰监视和数据收集的策略,通过增加识别成本来防止数据处理者提取有价值信息。
关键观点2: 混淆的必要性
在数字监控和数据收集日益增长的背景下,混淆提供了一种实用的解决方案,帮助个体保护自己的隐私。
关键观点3: 混淆与个人信息匿名化的关系
混淆与个人信息匿名化都是现代数据保护实践中用来保护个人隐私的技术,它们的主要目标是使外部分析者难以利用其收集的数据来识别个体。
关键观点4: AI时代语境下混淆的挑战
AI与混淆的结合可以显著增强隐私保护的效果,但也带来了新的伦理和法律挑战,需要在技术发展和应用的过程中加以慎重考虑和应对。
关键观点5: 本书的意义与影响
本书不仅为那些无法退出监控的人提供了减轻影响的方法,还从“用户自处理”的视角为个人信息保护法律的适用拓展了一个全新的问题领域,并引发了关于混淆的伦理与政治问题的讨论。
正文
点击蓝字关注
我们每天都在产生大量的数据, 这些数据被无期限地存储下来, 而且我们关联和分析这些数据的技术的水平也在不断提升。曾经被我们视为隐私的事物, 现在在新技术面前, 可能变得公开、可见且有价值。这就是信息不对称的一个方面, 它塑造了我们的隐私和自主权: 我们不知道当下的算法、技术、硬件和数据库能够对我们的数据做什么。从无关紧要的事到有意义的事, 从日常生活的琐事到可能影响我们的税金、保险费、贷款、自由出行等重大事件, 这一切都在不断地向前演变和进步。
我们中的许多人在不对称的关系中必须作出妥协, 无法得到我们希望得到的控制或同意。然而, 在21世纪的日常生活中, 在我们面对这些情况时, 仍有办法开辟出抵抗、反驳和自主的空间。
混淆就是弱者的武器。
作者简介
〔美〕芬恩·布伦顿
(Finn Brunton)
美国加州大学戴维斯分校(UC Davis)传媒、文化与传播学院副教授。布伦顿教授的主要研究领域包括:技术史和理论、计算机历史(前电子时代和后电子时代)、黑客和黑客文化、加密货币、社会主义计算,关注媒体、文化和传播的交叉研究等。
〔美〕海伦·尼森鲍姆
(Helen Nissenbaum)
美国康奈尔大学(Cornell University)理工学院信息科学教授。其从事科技、数据隐私领域研究多年,曾参与起草奥巴马政府的《消费者隐私权利法案》,是美国国家科学基金会(NSF)、美国空军研究实验室(AFRL)、美国卫生与公众服务部、麦克阿瑟基金会、美国国防部高级研究计划局(DARPA)和美国国家安全局(NSA)的长期资助专家。
译者简介
赵精武
北京航空航天大学法学院副教授、院长助理。中国法学会网络与信息法学研究会理事、工信部工业和信息化法治战略与管理重点实验室副主任、北京航空航天大学网络空间国际治理研究基地副主任、北京科技创新中心研究基地副主任。学术研究方向为民商法学、数字法学。入选北京市社会科学基金青年学术带头人、北京市法学会“百名法学青年英才”培养计划、北京市国家治理青年人才培养计划、北航青年五四奖章。译有《所有权的终结:数字时代的财产保护》等,在《中国法学》《中外法学》《现代法学》《法律科学》《法学论坛》《华东政法大学学报》等中英文核心期刊发表文章数篇,并有部分文章被《新华文摘》《高等学校文科学术文摘》《人大复印报刊资料》全文转载;在《光明日报(理论版)》和《经济日报》等媒体发表评论性文章数篇。
林北征
广州互联网法院法官,法学博士,研究兴趣为互联网司法、个人信息保护法。在《行政法学研究》《西安交通大学学报(社会科学版)》《中国应用法学》《数字法学》《法治论坛》发表论文多篇,作为主执笔人完成最高人民法院、广东省高级人民法院等多项调研课题。第29—32届全国法院系统学术讨论会、中国应用法学高峰论坛、全国科技法治论坛获奖作者。另在《人民法院案例选》《中国审判》发表案例分析多篇,获评全国法院系统优秀案例分析、广东法院十大民商事案例、广州法院精品案例等。
我与北征法官决定共同翻译本书,是在2023年2月的一个深夜。当时,我们正在讨论“场景一致性理论”(theory of context integrity)如何判定个人信息匿名化。而场景一致性理论,正是本书作者之一———尼森鲍姆教授的成名学说。随着讨论的深入,我们开始阅读尼森鲍姆教授的其他著述,并“毅然决然”地选择了最“轻薄”的一本开始了翻译工作。这么做主要是考虑到本书的行文结构很简洁,只有两个部分,总体篇幅不大,可以让我们在各自繁忙的日常工作中灵活地完成翻译和校核。本书通过大量的案例塑造出一个个独立而又连贯的“场景”,用于论证“混淆”为什么是公民保护自身隐私和个人信息权益的有效方法。更重要的是,本书从“用户自处理”的视角,为个人信息保护法律的适用拓展了一个全新的问题领域,希望可以为各位读者朋友带来更多学术启发。此外,在翻译的过程中,我们也一直在思考一个有趣的问题:在AI大模型横空出世的今天,我们为什么还要坚持翻译?对此,本序也尝试作一些回答。
作者芬恩·布伦顿和海伦·尼森鲍姆将“混淆”(Obfuscation)定义为故意添加含糊、混乱或具有误导性的信息以干扰监视和数据收集的策略,其核心在于通过大幅度提升识别的成本来增加数据处理者提取有价值信息的难度。
本书立足于数字监控和数据收集日益增长的背景,首先介绍了混淆的核心案例和概念,这些案例不仅展示了混淆在计算机技术、政治和生物学等领域的运用,还强调了混淆在对抗监视和数据收集方面的必要性。作者试图通过对案例的具体展示,让读者更好地理解混淆的原理和应用场景。也正是通过分析这些具体案例,作者展示了混淆在实际应用中的有效性,证明了其作为保护隐私和促进社会变革工具的正当性和必要性。我们可以根据混淆的客体将这些案例大致分为以下三类:
第一类是混淆身份。这种方法旨在通过创造混淆性和多样性来保护个人隐私。在群体身份策略中,多人共同使用一个名字的典型案例如“我是斯巴达克斯”的场景。通过这种方式,个体隐匿在集体中,识别难度也增加了;在相同同伴和物体策略中,通过让多人穿戴相同的服装或使用相同的物品迷惑观察者,使其无法准确识别每个个体;在交换SIM卡策略中,通过随机重新分配SIM卡,使追踪者难以确定每个设备的实际用户,从而有效保护用户隐私。这些策略共同发挥作用,通过多重身份和集体行为实现了对个人身份的混淆和保护。
第二类是混淆位置和活动。这种方法主要通过制造虚假路径和冗余信息来掩盖真实的动向和活动。第二次世界大战期间的金属箔条策略通过在空中撒下金属箔条,制造多个虚假“飞机”信号,扰乱雷达探测,成功掩盖了实际目标。“隐身斗篷”(Cache Cloak)利用生成多个潜在路径来混淆用户的实际位置,使追踪者难以确定用户的真实位置,从而保护隐私。上传至泄密网站的策略则是通过上传大量无关信息,掩盖重要文件的踪迹,使文件贡献者的身份得到保护。此外,过度文档化策略通过制造大量冗余的、超出对手分析能力的文件和细节,使情报生成速度减缓,增加分析难度,有效地混淆了实际位置和活动。
第三类是混淆通信和数据。这种方法通过制造噪声和虚假信息来干扰监控和数据分析。书中提到,推特机器人在社交媒体上发布大量噪声信息,特别是在领导人选举引发群众抗议时期,通过制造大量虚假信息,使得实际有用的信息难以辨认,从而保护政治活动家的安全。“混淆搜索”(TrackMeNot)工具通过生成虚假搜索查询,掩盖用户的真实搜索行为,防止个人被精准剖析。虚假信号策略则在训练有素的观察者面前制造与真实信号相似的虚假信号,迷惑观察者,使其难以区分真实和虚假信息。
依托上述丰富的案例,作者在书中进一步探讨了为什么需要混淆,特别是对信息不对称和隐私侵犯的现实情况进行了深入分析,进而引发对混淆的伦理与政治问题的讨论。在现代社会,数据收集和监控往往由政府和大型科技公司等拥有大量资源和先进技术的强势机构实施。这些机构能够通过复杂的技术手段大规模地收集、分析和利用个人信息,而普通个体则缺乏相应的技术手段来保护自己的隐私。这种权力不对称使个体在面对数据收集时处于劣势,无法有效对抗强大的数据收集者。由此展开,混淆不仅是一种技术手段,更是一种策略。在面对数据收集和监控的挑战时,它能够帮助个体在权力不对称的情况下保护自己的隐私和权利。混淆体现了对公正的追求,它通过制造虚假或误导性信息,增加了数据分析的难度和成本,使数据收集者无法轻易提取有价值的信息,从而平衡权力不对称问题。在本书最后,作者评估了混淆的有效性,探讨了它在不同场景下的实用性和局限性,并指出如何根据目标和资源选择适当的混淆策略。例如,某些混淆在短期内有效,但长期来看,尚需更复杂的方法和多方合作才能发挥作用。
在书中,作者布伦顿和尼森鲍姆论证了混淆的必要性。在现代社会,个人经常处于信息不对称的劣势地位。政府和大型科技公司拥有先进的数据收集和分析工具,个人无法有效地避免这些监控。对于那些没有技术资源或社会影响力的群体,混淆提供了一种实用的解决方案,这使他们能够通过增加数据分析的难度来保护自己的隐私。通过分析信息不对称的现实和具体案例,作者有力地论证了混淆作为一种工具,如何为那些无法退出监控的人提供减轻影响的方法。
作者熟练地运用政治经济学知识,对信息不对称和数据收集中的权力样态进行了深入分析。他们认为,在现代社会,个人的数据常常在他们不知情的情况下被收集、分析和使用。依据本书的描述,在使用社交媒体、在线服务或政府要求等情况下,个人无法选择不暴露他们的数据。加之社会中普遍存在的对科技的依赖和信任,使个体更容易忽视数据收集带来的“隐私悖论”等反直觉的隐私问题,这导致大量个人信息在网络上被收集、共享、出售,进而导致隐私被泄露和滥用。大型科技公司和政府机构通常拥有先进的数据收集和分析技术,这些技术使他们能够大规模地收集和处理个人信息。这创造了明显的信息不对称,让数据收集者进一步掌握更多的信息和资源,进而获取商业利益,建立战略优势。这些被收集的数据可以被企业用于精准营销以提高产品销售额,也可以被用于社会治理和安全监控,或决定一个人能否获得贷款、保险或者工作机会。在此前提下,数据收集者对数据的天然依赖会加剧信息不对称,并且在经济和战略上具有更强的获取和利用个人信息的动机。作者认为,尽管保护个体隐私和个人信息的法律和政策并不少,但这些规范性资源往往无法及时跟踪技术和商业的发展,使个体在数据保护方面更加脆弱,这让部分数据收集者有了铤而走险的动机,利用法律漏洞规避监管或在法律的灰色地带操作,让“平凡的个体”难以对抗强大的数据收集者。因此,技术优势上的差距、数据经济的驱动、法律和政策的不完备以及社会和文化因素,共同造成个体与数据收集者之间的信息不对称,推动数据收集中的权力偏向一方进行动态积累。普通个体在面对这些复杂技术时处于劣势,更加难以有效保护自己的隐私。个体如何有效地应对这些挑战,成为迫在眉睫的问题。
面对这种无法退出的监控体系,个体需要找到保护自己的方法。个体和群体可以在信息不对称、数据滥用风险和缺乏资源的情况下,通过混淆主动抗衡数据被暴露和滥用的风险,以便更好地保护自己的隐私和数据安全。特别是,混淆更适用于那些无法使用高级隐私保护工具的人。这类人通常缺乏资源和技术手段来有效保护自己的隐私,而混淆提供了一种可行的便捷方案。混淆作为一种合理的自我保护手段,在抵制不对称数据收集体系的同时,又不至于忽略自我和他人的道德责任。在无法完全退出监控的情况下,混淆通过增加虚假信息,干扰数据收集者的分析,使个体能够在一定程度上保护自己的隐私和安全。当然,混淆不仅仅是保护个人隐私的工具,也是集体抗议和社会变革的一种手段。这种集体行为不仅能够保护个体隐私,还能够促进社会变革,推动建设更加公平和透明的社会环境。虽然不乏对混淆的批评,即认为混淆是不透明和不诚实的行为,但作者认为,在一个不公平和不对称的监控体系中,完全的透明反而会导致更大的伤害和不公正,因为完全透明的数据收集会被滥用,这会直接导致隐私被泄露和不公平的待遇。所以,混淆作为一种防御手段,通过增加数据分析的复杂性和成本,能够在一定程度上恢复上述信息、权力的平衡,并且在防止数据被滥用的同时,还能够恢复和提升公众对数据收集和使用的信任。
在译者序的开头提到,本书的翻译始于我们对个人信息匿名化的延伸讨论。个人信息匿名化(以下简称“匿名化”)是指“个人信息经过处理无法识别特定自然人且不能复原的过程”。匿名化具有特别的立法功能,可在规范信息处理活动、保护信息主体权益的前提下,促进对个人信息的合理使用,提升数据要素的生产与利用效率。我国《个人信息保护法》第4条、《网络安全法》第42条、《民法典》第《中华人民共和国个人信息保护法》第73条第4项。1038条均对匿名化作出特别规定,相关国家政策也对匿名化高度重视。2023年12月,《“数据要素×”三年行动计划(2024—2026年)》强调,要以推动数据要素高水平应用为主线,带动数据要素高质量供给、合规高效流通,为推动高质量发展、推进中国式现代化提供有力支撑。2022年12月,《中共中央国务院关于构建数据基础制度更好发挥数据要素作用的意见》明确提出,数据流通交易要以隐私保护为前提,“推动个人信息匿名化处理,保障使用个人信息数据时的信息安全和个人隐私”。个人信息匿名化作为一项重要的数据要素法律制度,与混淆有紧密的关系。
从技术维度来看,混淆和匿名化作为保护个人隐私的技术,各自有一套独特的方法和要面临的挑战。这些技术主要是为了增加在不同数据环境中解读个人信息的难度或是实现信息的不可识别化。匿名化通常涉及彻底去除或修改可以直接识别个人身份的数据。例如,通过删除或广泛地泛化个人标识信息(如姓名和地址),或通过技术手段如聚合数据、“k-匿名化”(k-anonymity)等技术,确保个人信息无法被识别。这些方法虽然可以有效减少个人信息被滥用的风险,但会导致数据失去一部分原有的价值,因为一些有助于深入分析的详细信息会被去除。而混淆则通过添加噪声或更改数据中的部分信息来增加数据解读的难度。例如,通过随机调整数据中的某些值或在数据集中加入额外的无关信息,从而使得原始数据和添加的噪声难以被区分。混淆可以在不完全删除信息的情况下,提高数据的隐私保护水平,但同样影响数据的准确性和可用性。相较于混淆,匿名化通常需要精确的技术和对数据特征的深入了解,确保所有潜在的识别信息都被有效处理。而混淆的实施则相对灵活,可以根据需要调整添加的噪声的量和类型,但这也要求对数据如何被处理和解析有深入的理解。不过,有些匿名化技术也采用了生成虚假信息的方法。例如,合成数据是一种通过算法生成的、与实际事件无关的虚假数据,它能够在不牺牲数据的质量和实用性的情况下,满足隐私保护的要求。合成数据技术利用机器学习模型学习原始数据的模式和统计属性,然后生成新的完全虚构的数据集。这些数据集保留了原始数据的统计特征,但不包含任何真实的个人信息,从而在保护隐私的同时保持数据的实用性。
从功能维度来看,混淆和匿名化都是现代数据保护实践中用来保护个人隐私的技术。它们的主要目标是使外部分析者难以利用其收集的数据来识别个体。尽管这两种技术的方法不同(混淆通过在数据中添加虚假信息来增加分析的复杂性,匿名化则通过删除或改变可以直接用于识别个体的信息来减少数据的个人特征),但它们的核心目的是一样的,即保障个人信息不被滥用,同时尽可能保持数据集的实用性不受影响。在应用这些技术时,都会遇到需要在增强隐私保护和保持数据集的实用性之间寻找平衡的挑战。例如,混淆会导致数据集中含有大量无关信息,这些信息如果处理不当,会影响数据分析的准确性,比如在消费行为分析中会因为混淆数据而无法准确预测消费趋势。相似地,过度的匿名化处理移除了数据中的重要特征,降低了数据的分析价值,比如在健康数据分析中,去除过多的患者背景信息会影响疾病模式的识别。因此,在设计这些隐私保护措施时,要精确控制混淆的比例和匿名化的深度,确保在保护隐私的同时,数据仍能为合法的数据分析提供价值。
《个人信息保护法》颁布前后,学界曾就匿名化制度的理论基础和具体内容掀起一阵讨论热潮,但是伴随着个人信息保护相关配套制度的出台,相关探讨反而有所衰减。这并非因为后续的配套制度已经基本解决了数据安全和数据利用的平衡问题,而是因为学界所达成的共识以及难以调和的分歧使得对匿名化制度的相关研究陷入瓶颈。对匿名化的惯常讨论几乎是站在个人信息处理者自行匿名化的视角,对于匿名化的程度、所采用的技术的可靠性,以及更重要的———信息主体对匿名化处理的信任,都缺少必要的知悉渠道。
本书从信息主体的角度给匿名化提供了新的思考视角———“用户自处理”,即从信息主体自身开始就“混淆”,让处理者收集到已经被混淆的信息,从而提升对信息主体自身的保护。混淆的核心在于,通过制造大量相似或相关的信号,使数据集合变得更加模糊、混乱,难以被利用和分析,从而降低其价值。混淆在个人无法拒绝或否认观察的情况下,通过制造多个似是而非的信号,使需要隐藏的信息掩藏于其中。混淆的目的是通过增加分析难度,减缓监控系统的效率,并保护个人隐私。这一策略不仅适用于个人和群体,也在技术、法律和社会政策等多个领域发挥作用,成为保护隐私和对抗数据收集的一种有效工具。相较于目前主流的以“处理主体处理”为中心的个人信息保护法研究视角,“用户自处理”的视角会让用户从“小透明”跻身处理行为者的行列。通过混淆的方式影响数据的质量和效用,无疑会在个人信息权益保护、数据要素效用与成本、企业数据竞争力等学术议题上,带来完全不同的讨论进路和分析框架。值得期待的是,混淆和匿名化在综合数据保护策略中扮演着重要角色,二者提供了一系列工具和方法,使组织和个人能根据具体的需求选择合适的隐私保护措施。通过综合使用混淆、匿名化以及其他技术(比如加密和访问控制),可以构建一个多层次的数据保护体系,以适应不断变化的技术和威胁。
如果混淆遇见AI会发生什么?一个肯定的答案是,AI与混淆的结合可以显著增强隐私保护的效果。通过机器学习和自然语言处理技术,AI可以识别和预测数据收集者的分析模式,从而生成有针对性的混淆数据,使混淆更加高效和难以被破解,从而进一步增强隐私保护效果。除混淆数据外,AI还可以实时监控数据收集环境,根据监控结果自动调整混淆,并将混淆应用到更多复杂和多样的场景中。例如,在面对新的数据分析方法时,AI可以快速生成新的混淆模式,生成虚假的用户行为数据来保护用户在社交媒体上的隐私,或者通过生成虚拟路径来防止用户的地理位置被追踪。然而,这也带来了新的伦理和法律挑战,需要在技术发展和应用的过程中加以慎重考虑和应对。
一是AI虚假信息问题。在AI大模型快速发展的背景下,AI生成虚假信息的问题尤其严峻,特别是在应用深度伪造技术的情况下,这一挑战变得更加复杂和重要。《互联网信息服务深度合成管理规定》搭建了针对深度伪造技术的制度框架,要求深度合成服务的提供者建立健全的辟谣机制和用户申诉渠道,确保及时应对虚假信息的传播,并向相关监管部门报告。深度伪造技术可以生成高度逼真的虚假图像、视频和音频,并被广泛应用于娱乐、教育和商业领域。在电影行业,深度伪造技术被用来复活已故演员,使他们在新的影片中“出演”角色。例如,在2016年的电影《星球大战外传:侠盗一号》中彼得·库欣复活的场景。同样地,在电影《速度与激情7》中,电影制作团队使用了视觉特效技术来完成保罗·沃克(PaulWalker)未能参与拍摄的部分。由于沃克在拍摄过程中意外去世,电影制作团队通过使用他的两位兄弟作为替身演员,并结合计算机生成图像(CGI)的方式在电影中复现沃克的表演。这项技术允许电影制作团队在尊重已故演员的同时,完成电影的制作。这一过程使用了350个CGI镜头,并涉及大量的技术细节和创新,以确保人物形象与已故演员尽可能相似。然而,更令人感到惊讶的是,深度伪造技术已被用于对政治领导人的虚假宣传和散布不实信息。一个著名的例子是,今日俄罗斯电视台通过使用深度伪造技术制作视频来模仿各国领导人讨论如何对俄罗斯进行制裁的场景,视频中伪造的场景包括美国总统拜登在桌子上打瞌睡和法国总统马克龙用头撞柜子。更有甚者,利用深度伪造技术,模仿公众人物的声音和面部表情,发布虚假信息,影响公众对某些热点事件的看法。比如,通过深度伪造技术得到的一个模仿美国总统拜登声音的音频被用于自动电话呼叫,目的是劝阻美国新罕布什尔州的选民不要参与投票,从而直接干预选举过程。由此可见,混淆技术与深度伪造等AI技术的结合,在提升信息保护水平的同时,增加了甄别真实信息的难度。当AI生成的虚假数据变得极其逼真时,混淆技术的合法性和效果受到广泛质疑。《互联网信息服务深度合成管理规定》为处理AI与混淆的结合所带来的问题提供了制度框架。该规定要求对可能滥用混淆和深度伪造技术的行为进行严格监管,以防止其破坏社会秩序和损害公共利益。为了有效应对AI与混淆的结合带来的伦理和法律问题,迫切需要建立透明的问责机制和独立的监管机构来监督用AI生成虚假信息的行为,并建立有效的技术防护措施防止AI与混淆被滥用。比如开发能够检测深度伪造的工具,利用机器学习和模式识别技术,自动识别图像、视频和音频中的伪造痕迹,从而帮助社会公众和执法、司法机构甄别虚假信息。
二是群体隐私问题。AI和大数据的应用在全球迅速扩展,通过数据驱动的服务(如推荐系统、智能医疗等)改善了人们的生活。考虑到来自各种渠道(云计算、物联网、社交网络等)的个人数据急剧增长,AI和大数据之间的协同已成为必需。然而,当数据与AI在某个地方相遇,就会引发难以想象的隐私问题,其中之一就是“群体隐私”(Group Privacy)。群体隐私关注的是在数据分析和处理中保护具有共同属性或行为特征的群体的隐私。这不仅涉及对个体信息的保护,而且关注作为一个整体的群体的信息安全。例如,某社区可能因为共同的健康信息、位置数据或行为习惯被特别标识和分析,从而可能遭受群体级别的隐私侵犯。群体隐私的挑战在于如何在没有明确区分每个个体的情况下,保护整个群体的隐私。这涉及如何处理和保护群体共有的数据,避免因数据泄露或不当使用而给群体成员带来连带的风险。在生活中,有些信息并不是那么泾渭分明,比如我们和朋友的交互信息,而它们对了解我们的朋友意义重大。正如斯坦福大学计算机科学教授迈克尔·科辛斯基(Michal Kosinski)所言:“如果了解一个人的10个脸书上的点赞,则对这个人的了解足以超越这个人的普通同事;如果了解70个脸书上的点赞,则对这个人的了解足以超过这个人的朋友;如果了解150个脸书上的点赞,那么对这个人的了解可以达到这个人的家长的程度;如果了解超过300个脸书上的点赞,那么恐怕会比这个人最亲密的伴侣更了解这个人。”尽管群体隐私是最重要的问题之一,但它尚未得到学界应有的关注。混淆技术的核心理念是增加数据分析的不确定性和复杂性,从而保护数据主体免受未授权分析的侵害。在群体隐私的场景中,在数据集中插入虚假的或无意义的信息的方式有助于保护那些因为共享某些敏感属性(如健康状况、种族、经济状况等)而被归为同一群体的个体。这种策略理论上能减少通过数据分析揭示个体隐私的风险。例如,在健康数据中混入虚假信息可以防止保险公司利用这些数据进行风险评估,从而避免对患有特定疾病的群体进行价格歧视。这种做法可以帮助实现保险费用的公平分配,防止基于健康数据的不公平处理。尽管混淆提供了一种理论上的保护方法,但它在实际应用中存在一定的局限性。混淆数据的生成需要精心设计,以确保虚假信息有可信度和难以识别性。如果混淆执行不当,不仅不能有效保护隐私,反而可能产生误导。为了克服混淆技术的这些局限,需要法律和技术的配合:从技术角度,开发更高级的混淆算法是必要的,这些算法应能自动调整虚假数据的生成过程或结果,以适应不断变化的数据分析技术;从法律角度,通过制定明确的规范来界定混淆技术的合法应用范围和方法,从而尽可能防止混淆技术被误用和滥用,同样重要。
三是“预测性隐私”(Predictive Privacy)。预测性隐私与上述群体隐私相似。这两种隐私问题都要求对数据的收集、存储和使用进行严格监管,确保处理过程的透明和公正,从而保护个体和群体不受未经授权的预测和标签化的影响,因此,二者具有同样的价值追求。群体隐私和预测性隐私的主要区别在于保护的对象不同。群体隐私关注的是如何保护一群人共有的隐私权,而预测性隐私则关注在不侵犯个体隐私的前提下如何对个体未来的行为进行预测;群体隐私考虑的是整个群体的隐私安全,而预测性隐私更多关注的是个体的数据如何被用于预测。机器学习中的数据分析和数据驱动方法现在在许多工业领域中是最受欢迎的计算技术之一。它的长处是可以根据大量行为和数据预测与目标群体或个体相关的敏感属性、未来行为或成本、风险和效用函数。有学者指出,如果预测分析被用于预测关于单一个体的敏感信息,或者根据许多不相关的个体提供的数据对个体进行不同的对待,则对伦理和数据保护有严重的影响。因此,学者们提出了“预测性隐私”的概念。预测性隐私关注的是未经个人明确同意,通过大数据分析和机器学习对个人行为和倾向进行预测的行为。这在很多情况下可能会侵犯个人的隐私权利。侵犯预测性隐私不仅关系到个人信息的泄露,更关系到如何使用这些信息进行决策,如信用评分、保险定价等,这些决策可能基于对个体行为的预测而非实际行为作出。尽管混淆可以在一定程度上增加数据分析的复杂度,但它并不能完全阻止基于大规模数据集的预测性分析。预测性隐私的核心挑战在于,即使数据被匿名化,依旧能通过分析来预测个体的行为或特征,这种预测可能会侵犯个体的隐私权利,并可能导致产生不公正的对待或决策。混淆的主要局限在于它并不改变数据的收集和使用方式本身,而只是在数据分析阶段增加障碍。这意味着如果攻击者能够识别出哪些数据是真实的,哪些数据是通过混淆生成的,那么他们仍然可以对真实数据进行分析和利用。相比之下,AI和机器学习模型的强大能力意味着即使数据被混淆,仍然有从大量的、看似无关的数据中提取有价值的模式和关联的可能,继而进行有效的预测。因此,虽然混淆为个人隐私保护提供了一个工具,但在防止预测性隐私侵犯方面,它能起到的作用有限。面对日益复杂的数据分析技术,我们需要更全面的隐私保护策略。
第一个“彩蛋”是译者注。翻译任务是一个解决问题的过程,不能将译者的素养狭隘地等同于母语和目标语能力。译者的素养是译者以问题解决能力所统领的知识、能力和特质。这意味着,虽然这本书的篇幅短小精悍,但翻译并不轻松。翻译本书和翻译传统学术著作不太一样,前者的内容包含了诸多“混淆案例”:既涉及美剧、小说和电影,又囊括话剧、新闻和近代史;大到飞机雷达,小到昆虫和浏览器插件。感谢作者开阔的研究视野,让我们“不得不”通过“煲剧”等喜闻乐见的形式完成本书的翻译和校对工作。为了证明翻译过程不是在“摸鱼”,我们在最终的译稿中加了数量可观的译者注,并结合中国的相关案(事)例把这本“薄书”往厚翻译。这既用于记录和呈现我们作为译者与原著文本沟通的结果,也对原文起到一定的解释、补偿、纠误和评论的作用。我们希望这么做可以有利于读者诸君了解本书在中美文化上的有趣差异。
第二个“彩蛋”是对书名的翻译。本着“吹毛求疵”的翻译要求,从我们决定翻译本书,到最后大家看到的版本,本书的中译名在这一过程中更迭了将近二十次。本书的“曾用名”(曾经想用的名字)包括“混淆策略:保护隐私与私力救济指南”“隐蔽之战:隐私与抗议用户指南”“销声匿迹:隐私与抗议指南”“遮蔽技术:隐私自卫与保护行动指南”“隐私混淆术:用户抗议与保护指导”等。其中,将原书名使用的“protest”直译为“抗议”反而会削弱作者在本书最后一部分所强调的“用户应当通过有效的混淆技术或者策略保护自己的隐私”这一立场。几经纠结,我们最终锁定了两个翻译方案:“混淆:个人隐私自我救济手册”和“混淆:个人隐私自我保护手册”。二者的表述差不多,但究竟是用“救济”还是“保护”呢?我们的考虑是,“救济”意味着用户利益已经受损,而个人信息和隐私作为被保护的对象,应当是预先保护最为重要,因为个人信息和隐私一旦被实质侵害,大概率无法被充分救济,而只能填补损害。此外,“私力”的保护和“公力”相对,因为“公力”是需要行政资源、司法资源等作为支撑的,这些资源往往是有限分配,而由于个人信息和隐私的特性,相关侵权纠纷往往以“小额+大量+分散”居多。如果不是启动民事诉讼等救济程序,或者引发特别大的新闻事件,往往不会被当然地置于公力救济的标准范畴之内。因此,将本书书名翻译为《混淆:个人隐私自我保护手册》,更有助于强调本书对鼓励用户通过自己的努力优先保护自我权益的讨论,也能有针对性地凸显本书对差异化隐私保护这一学术议题的贡献。
第三个“彩蛋”是对“一词多义”的处理。需要“吐槽”的是,原著作者使用了很多冗余的表达,这一点在美国亚马逊网站的书评栏目中也有读者抱怨,全书用了大量的破折号进行断句。对此,我们采用了通译的模式。除保留必要的语气、表达与行文需要特别强调的观点和表述外,我们统一在语素上做了整合,以保障阅读的流畅性,并且注意翻译这些内容的具体方式,让本书的翻译能接地气,并且可以更好地体现中文的“味道”和惯常表达。在其他翻译细节上,本书最初的版本把“you”全部译作“您”。后期考虑到便于以更亲和的语气与读者朋友们交流,统一译成“你”;同时,我们把尾注改为脚注,既方便查阅,也更符合中国读者的习惯,做到“所见即所得”。此外,在翻译本书的过程中,我们发现了部分理解存在分歧的词语。比如,“context”可以译作“场景、情景、背景、上下文”;“agent”在原文中,既可以表达“网关代理”(proxy),又可以表达“FBI特工”;将“ethical obfuscator”译作“伦理混淆者”更好,还是译作“道德混淆者”更好;将“system”译作“(社会)制度”更好,还是译作“(软件)系统”更好;很多问题和表达时的语气是否在正话反说等,都需要自己根据上下文语境去揣摩和体会。为了便于大家理解和讨论,我们在对应位置附上了原文的用语和用词,并在对应的译者注中记录了我们对该处翻译的具体考量。
在本书截稿的时候,北征法官正好拿到了他人生中最重要的博士学位。为了保证将书中的观点更好地展现在大家面前,尔埼老师在本书翻译立项时就不止一次地建议我们,一定不要译成学术腔,表述要活泼,更要平易近人。希冀这本译著还有这篇洋洋洒洒的译者序都能达到读者的要求,也能充分表达我们对本书的喜爱和重视。回到最初的问题,在AI大模型喷薄而出的今天,为什么还要坚持人工翻译?我们翻译的价值在哪里?收获又在哪里?从上述铺陈中,相信各位读者朋友也已略窥端倪:翻译不仅仅是语言之间的转换,更是一种文化的传递和交流。通过翻译本书,我们感触最深的一点是:法学著作的翻译,是理解和学习不同法域研究思想和学术表达所不可替代的方式,对于网络与信息法学这一“弥久而又新兴”的学科而言更是如此。有关个人信息保护与隐私的讨论虽然很多,但面对技术发展这一社会洪流,可能我们所以为的“尽然”方才启程。
赵精武
深夜于北京航空航天大学
林北征
深夜于广州大学城
2024年7月30日
目录
CONTENTS
001 致 谢
001 引 言
007 第一部分 混淆实践面面观
011 1 核心案例
044 2 其他案例
075 第二部分 理解混淆
077 3 为什么需要混淆?
109 4 混淆不合理吗?
144 5 混淆会起作用吗?
163 结 语
167 参考书目
183 索 引
混淆,在其最抽象的意义上,是在现有的信号上制造噪声,使数据集变得更加模糊、混乱,更难被利用,更难被行动化,从而降低其利用价值。
我们之所以选择 “混淆”这个词,是因为它暗示了模糊、难以理解和迷惑的特质,这也帮助我们区分它与那些依赖消失或擦除加以实现的方法。
尽管法规的限制、组织最佳实践的规定、勤勉的开发者提供的保护性技术工具,以及在生活中有选择性地避免或退出某些可能侵犯隐私的服务都在一定程度上保护了我们的隐私,但仍有很多领域的隐私容易受到侵犯,而混淆为此提供了额外的保障。