该文章为信息专员办公室(ICO)发布的关于生成式人工智能(GAI)法规工作的报告,概述了ICO在GAI法规方面的工作,包括响应GAI的最新发展,与AI的开发者、采用者和利益相关者接触,并发布咨询系列。报告总结了咨询回应中的关键主题,并明确了在GAI和数据保护方面的立场。报告还探讨了数据保护法的特定领域如何适用于GAI系统,并指出需要更新的领域。ICO表示将适时更新指南以反映这些立场,并指出即将到来的数据改革立法可能对这些立场产生影响。
ICO迅速响应了GAI的最新发展,与AI的开发者、采用者和利益相关者接触,并发布了咨询系列。
报告总结了咨询回应中的关键主题,并明确了在GAI和数据保护方面的立场。
报告探讨了数据保护法的特定领域如何适用于GAI系统,并指出需要更新的领域。
ICO表示将适时更新指南以反映这些立场,并指出即将到来的数据改革立法可能对这些立场产生影响。
报告对AI、微调、生成式AI、幻觉、隐形处理、机器去学习和合成数据等术语进行了解释。
一日可能发布多篇文章,欢迎标星⭐本号,避免错过数据合规新鲜资讯~作为信息专员办公室(ICO)在生成式人工智能(Generative Artificial Intelligence,以下简称“GAI”)法规方面的工作的一部分,我们迅速响应了GAI的最新发展,与AI的开发者、采用者和受影响的利益相关者进行了接触。2023年4月,我们提出了开发者和部署者需要询问的问题(见:https://cy.ico.org.uk/about-the-ico/media-centre/blog-generative-ai-eight-questions-that-developers-and-users-need-to-ask/)。
2024年1月,我们启动了五部分的GAI咨询系列,本咨询回应总结了该系列(见:https://cy.ico.org.uk/about-the-ico/ico-and-stakeholder-consultations/ico-consultation-series-on-generative-ai-and-data-protection/)。该系列旨在解决关于英国通用数据保护条例(UK GDPR)和2018年数据保护法(DPA)如何适用于AI的开发和使用的监管不确定性。它通过提出我们对这些领域的初步分析,以及我们希望就此进行咨询的立场来实现这一点。以下是从咨询回应中出现的关键主题的总结。本总结不旨在成为所有表达观点的全面记录,也不是对回应者提出的所有个别观点的回应。除了总结反馈外,本咨询回应还就数据保护法的特定领域如何适用于GAI系统进行了我们的分析。此回应并未涵盖我们监管期望的全部内容(这些内容在我们的AI和数据保护核心指南中更详细地进行了介绍)。此回应确实就数据保护法对特定问题的应用提供了明确的观点。我们将适时更新现有的指南,以反映本回应中详细说明的立场。回应还指出了我们认为需要进一步工作以发展和通知我们思考的领域。我们还认识到,即将到来的数据改革立法可能会对本文中提出的立场产生影响。我们的GAI和数据保护咨询系列涵盖了五个关键领域:我们总共收到了来自组织192份回应和来自公众的22份回应。大多数回应来自创意产业、贸易或会员机构、技术领域(包括“大型科技公司”)和律师事务所。此外,我们还与民间社会、创意产业和技术公司举行了圆桌会议。许多回应非常详细。它们通常结合了证据(例如,GAI的技术解释)、分析(例如,数据保护法应用的解释)和论点(例如,GAI对特定利益相关者的负面或正面影响)。我们感谢那些对咨询做出回应的人。我们也感谢那些愿意与我们就这些问题进一步讨论的人。特别感谢英国银幕论坛、阿达·洛夫莱斯研究所和TechUK分别促进了与创意产业、民间社会和技术产业的圆桌讨论。我们还要感谢法国数据保护机构CNIL的同事们分享了他们对这个问题的见解。我们更新了对网络抓取用于训练GAI模型的合法利益作为合法性基础的立场。- 我们了解到,除了网络抓取之外,还存在其他数据收集方法,这些方法可能支持GAI的发展。例如,出版商直接从人们那里收集个人数据并以透明的方式许可这些数据。开发者需要证明网络抓取对于开发GAI的必要性。我们将继续与开发者和GAI研究人员接触,了解他们能在多大程度上不使用网络抓取数据开发GAI模型。
- 网络抓取是一种大规模处理活动,通常在人们不知情的情况下发生。这种无形的处理对人的权利和自由构成了特别的风险。例如,如果有人不知道他们的数据已经被处理,他们就无法行使其信息权利。我们收到的关于缓解措施可用性的证据很少。这意味着,在实践中,GAI开发者可能难以证明他们的处理符合合法利益平衡测试的要求。作为第一步,我们期望GAI开发者显著改善他们对透明度的方法。例如,他们可以考虑提供什么措施来保护人的权利、自由和利益。这可能涉及提供易于获取和具体的信息,使人们和出版商能够了解开发者收集了哪些个人数据。我们还期望他们测试和审查这些措施。
- 我们收到的证据表明,一些开发者正在使用许可和使用条款(ToU)来确保部署者以合规的方式使用他们的模型。然而,为了提供这种保证,开发者需要证明这些文件和协议包含有效的数据保护要求,并且这些要求得到了满足。
我们更新了将个人权利工程化到GAI模型中的立场,如咨询第四章所述。
- 作为控制者的组织必须设计和构建有效实施数据保护原则的系统,并将必要的安全措施整合到处理中。这将使组织更好地遵守协助人们信息权利的要求。
- 第11条(关于不需要识别的处理)在GAI的背景下可能有一定的相关性。然而,依赖它的组织需要证明它们的依赖是适当和合理的。例如,它们必须证明它们无法识别人。它们还必须给人们提供更多信息以使识别成为可能的机会。
GAI是一种能够生成新文本、图像、音频和视频内容的AI系统。GAI模型通常在大量个人数据上进行训练。在GAI的背景下,这种训练被称为“预训练”,因为核心模型经常用额外的训练数据进行微调,这些数据也可能包含个人数据。
GAI引发了许多新的和具有挑战性的数据保护问题。它涉及大量个人数据,这些数据通常在复杂的供应链中无形地被处理。它还对人的权利和自由构成风险,特别是当人们没有意识到处理正在进行时。技术发展的步伐意味着GAI模型的技术方面可能并不总是考虑到数据保护,这使得组织难以证明其符合法律要求。与此同时,数据保护的原则适用于任何处理个人数据的地方——包括使用新技术或新颖技术。我们继续监控GAI的主要开发者,他们需要确保在开发和部署新技术时持续遵守规定。我们的方法论基于我们在政策方法论和咨询政策中设定的原则。我们有一个有文件记录的、一致的、透明的方法来制定政策,我们做出基于证据的决策,专注于实现明确声明的监管成果。公众咨询通过调查回应以及通过电子邮件提交的书面回应来接收回应。我们收到了来自组织和公众成员的回应。开放文本调查回应和电子邮件回应被系统地审查和分析,以识别回应中的关键点。我们还举行了圆桌会议,与CNIL的同行举行了研讨会,并就特定问题与更广泛的利益相关者进行了接触。ICO致力于做出及时、知情和有影响力的决策,借鉴证据和洞察力,并了解我们干预的影响,以确保我们正在做出实质性的积极差异。影响考虑是我们公众咨询的一部分。与影响相关的回应的总结在附件中提供。本节澄清了几个数据保护问题,以解决咨询回应中突出的误解。其中一些是关于GAI的,而另一些则是关于AI(包括“狭义”AI)或一般数据保护的。我们已经列出了现有的ICO立场,以提供清晰度。
1) “偶然”或“不区分”处理个人数据仍然构成个人数据处理。许多GAI开发者声称他们无意处理个人数据,他们处理这些数据纯属偶然。我们的观点很明确:数据保护法适用于个人数据的处理(包括特殊类别数据),无论这是“偶然”的还是无意的。
2) 常见做法不等于满足人们的合理期望。组织不应假设某种处理方式会在人们的合理期望之内,仅仅因为它被视为“常见做法”。这尤其适用于以不可见的方式使用个人数据来训练GAI,或者在某人出于不同目的提供数据多年后(当时他们的期望默认是不同的)。3) “个人身份识别信息”(PII)与“个人数据”的法律定义不同。许多组织将他们的GAI合规工作集中在PII上。然而,为了确保在英国的合规性,他们应该考虑处理任何“个人数据”(这是一个在英国更广泛且法律定义明确的概念)。组织不得基于根本误解进行合规,也不得误传他们的处理操作。4) 组织不应假设他们可以依赖搜索引擎数据保护合规性的案例法结果来考虑GAI合规性。一些回应者试图依赖这些案例结果,认为由于数据的初始收集实质上是相同的(即网络爬虫),这些决定也应该适用于GAI背景。然而,虽然我们可以看到数据收集方面有相似之处,但关键的差异意味着这些决定的逻辑可能不适用。例如,搜索引擎旨在索引、排名和优先级信息,并将其提供给公众,而GAI则超越了这一点。它综合信息并在其输出中创造新的东西。传统的搜索引擎运营商还使人们能够行使其权利,特别是通过“下架”实现被遗忘权。当前GAI开发者的做法使人们难以做到同样的事情。5) GAI模型本身可能涉及数据保护问题。一些开发者认为他们的模型不“存储”个人数据。我们在2020年关于AI和数据保护的指导中指出,AI模型可能包含个人数据。在GAI咨询章节中,我们解释了GAI模型可能会以一种可能允许通过传输检索或披露它们所训练数据的形式嵌入数据。特别是,这可能对开放访问模型有影响。这需要进一步研究以了解何时以及如何实现这种风险。我们打算在未来更详细地探讨这个问题,考虑到技术和学术领域的持续发展。6) ICO不能确定或提供关于我们职权范围之外的法律要求的合规性指导(即数据保护和信息法)。一些回应者认为合法性原则意味着我们可以提供关于除数据保护之外的其他制度下合法性的观点或指导。一些人还认为数据保护可以作为解决其他监管职权范围内问题的一个有用杠杆。需要澄清的是,因违反其他法律要求(如知识产权法)而非法的数据处理,在数据保护法下也是非法的。然而,这并不意味着我们将或能够成为我们职权范围之外立法下合法性的仲裁者。7) 数据保护法中没有“人工智能豁免”。一些回应者认为数据保护法不应复杂化GAI的开发。虽然我们支持负责任的AI开发和部署,但组织必须意识到,对于GAI没有例外或广泛的豁免。如果一个组织正在处理个人数据,那么数据保护法将适用。我们鼓励对合规性不确定的组织采取“以设计为中心的数据保护方法”,在开始处理之前考虑合规性问题。简要来说:我们对于使用网络抓取的数据来训练GAI的合法性立场基本上保持不变。
⭕️基于当前实践,合法利益仍然是使用网络抓取的个人数据训练GAI模型的唯一可用合法基础。然而,这只在模型的开发人员能够确保他们通过包括必要性在内的三部分测试时才成立。我们收到的咨询回应表明,可能存在其他数据收集方法。因此,我们期望开发GAI的控制者提供证据,说明为什么其他可用的数据收集方法不适用。⭕️三部分测试还包括平衡测试。网络抓取用于GAI训练是一项高风险、无形的处理活动。如果透明度措施不足导致人们无法行使其权利,GAI开发者很可能难以通过平衡测试。在2024年1月,我们发布了咨询系列的第一章。这一章阐述了我们对处理网络抓取数据以训练GAI模型的合法基础的政策立场。我们收到了来自组织的77份回应和来自公众的16份回应。31份回应通过我们的调查收集,另外47份直接通过电子邮件接收。最具代表性的行业包括:创意产业(18);律师事务所(9);技术领域(8);贸易或会员机构(8)。在调查回应中,有19个回应者(61%)同意我们最初的分析。在我们原始的证据征集中,我们阐述了使用网络抓取数据训练GAI模型的合法基础的立场。完整的分析建议咨询原始证据征集,但我们的关键立场如下。首先,我们确定六个可用的合法性基础中的五个(同意、合同、法律义务、关键利益、公共任务)在此背景下不太可能适用。这意味着,在实践中,合法利益(LI)实际上是开发者唯一可以探索的合法基础。然而,他们仍需要通过三部分测试来证明这一合法基础实际上有效。其次,我们最初的观点是,大多数GAI训练可能需要通过网络抓取获得的数据量和类型的数据——但我们欢迎对此的看法。如果组织可以在没有高风险、无形处理的情况下合理实现其目的,那么他们就不会通过合法利益测试的必要性部分。第三,我们解释说,使用网络抓取的数据训练GAI本质上是两项高风险处理活动的结合。这是因为它涉及创新技术,同时也构成了无形处理。因此,它触发了ICO高风险处理活动列表上的两个触发因素。最后,我们提出了一些GAI开发者可以探索的各种考虑因素,这些因素可能有助于他们在这种情况下通过合法利益测试的第三部分。在确定处理网络抓取数据以训练GAI的合法利益(“目的测试”)时,回应中出现了以下要点:-回应者经常引用商业或社会利益,或两者兼有,作为合法利益。这特别是技术领域内AI开发者和一些律师事务所的情况。一些回应者认为,所有GAI默认都是创新的,任何创新都对社会有益。
-一些回应者对将社会利益作为合法利益提出挑战。这包括民间社会和创意产业的代表,他们强调GAI可能对人们产生的负面影响。这些影响包括缺乏透明度和无法行使其信息权利。
-许多来自创意产业的回应者认为,网络抓取的内容将构成未经授权和非法使用版权数据(特别是根据版权、设计和专利法(1988年)第二章)。他们补充说,因此,处理也将缺乏数据保护合法性原则下的合法基础。
在讨论使用网络抓取的数据训练GAI模型的必要性(“必要性测试”)时,回应中出现了以下要点:-GAI开发者和技术领域更广泛地表示,由于需要的数据量,没有使用网络抓取的数据就无法训练GAI模型。同样,他们认为大数据集和多样化的数据有助于确保模型的有效性能并避免偏见或不准确。
-另一方面,许多回应者,特别是创意产业的回应者,认为有其他方式收集数据来训练GAI模型,例如直接从出版商那里许可数据集。因此,他们认为使用网络抓取的数据无法满足必要性测试。
-各种回应提到了合成数据。然而,开发者在多大程度上可以依赖它提供大量训练数据仍然是一个未解决的问题。
在讨论处理对人们利益的影响(“平衡测试”)时,回应中出现了以下要点:-许多回应者,特别是来自民间社会和创意产业的回应者,认为在大多数情况下,AI开发者的合法利益将劣后于人们的权益。这是因为无形处理涉及对个人数据的失控,以及人们无法理解该处理对他们的影响。这在与这些行业的圆桌会议中也被提出。
-另一方面,技术领域内的AI开发者等人认为,AI的社会利益是平衡测试中的一个重要因素。他们引用了创新和潜在的有益用途。
-关于可能有助于通过平衡测试的保障措施和缓解措施,所有回应者都认识到透明度的关键作用。他们特别提到了明确处理个人数据的程度、数据来源、处理方式以及向人们清晰传达这些信息。一个民间社会组织主张设立一个AI注册处来执行此操作。
-他们还建议使用许可和使用条款作为AI开发者的有效保障措施,以确保下游部署者使用的“开放访问”模型符合数据保护。
回应者评论了特殊类别数据的处理和对英国GDPR第9条的遵守:-民间社会的回应者和其他人都指出,在训练数据中处理特殊类别数据是一个重大问题。这是因为对人们的权利和自由构成更大的风险。他们认为,开发者很难满足第9条的条件,当训练AI时。
许多回应者质疑为什么我们确定合法利益是使用网络抓取的个人数据训练AI唯一有效的合法基础。例如,一些人建议公共事务可以作为公共部门可以使用的合法基础。创意产业经常提出同意作为一个选项。为了提供清晰度,我们在特定于网络抓取以训练GAI的背景下对此的推理如下:同意:这里不太可能适用,因为训练AI模型的组织与被抓取数据的人没有直接关系。此外,当人们最初提供他们的个人数据时,他们不可能预料到另一个组织后来会将数据用于此目的。如果移除他们的数据需要模型重新训练,这是一个极其耗费成本和时间的过程,人们不太可能能够撤销他们的同意。履行合同:由于个人(其个人数据在训练数据中)与进行网络抓取的控制者没有合同关系,因此无法使用。遵守法律义务:训练AI的组织没有法律义务通过网络抓取收集数据。公共事务:控制者只能在活动在法律中规定或作为其官方角色的一部分时依赖此选项。这与商业AI开发者无关,对公共部门开发者来说也极不可能适用。重要的是要澄清,只有当创意内容构成个人数据时,数据保护才会适用于创意内容。任何人的可识别性将决定内容是否为个人数据。这需要根据可用的信息和工具来识别个人进行逐案评估。在“目的测试”中阐述合法利益时,我们的观点仍然是,对于控制者来说,即使对于可以用于各种下游目的的模型,也很重要要明确和清晰地表达一个具体的利益。这可以帮助控制者通过合法利益测试的第三部分,即“平衡测试”。组织可以使用通用的、琐碎的或有争议的利益。然而,如果他们这样做,他们不太可能通过平衡测试或覆盖某人的反对权。控制者应确保指定的目的能够有意义地评估处理的必要性以实现该目的。即使处理是必要的,他们也需要确保他们的利益不会被处理数据的个人的利益或基本权利和自由所覆盖。AI开发者在考虑其网络抓取的合法基础时,不应假设一般社会利益将足以作为合法利益。正如我们在原始证据征集中所说,开发者应该提供可能的好处的证据,而不是假设它们。仅仅因为某些AI发展是创新的,并不意味着它们自动有益,或者会自动具有足够的权重通过平衡测试。为了证明实现合法利益所选择的方法是合理的,控制者应该正确定义他们的所有目的,并为收集的每种类型的数据的使用提供理由。咨询回应也清楚地表明,使用网络抓取的个人数据训练AI的必要性并不是一个已经解决的问题。特别是创意产业对我们最初的立场提出了挑战,即网络抓取是必要的。我们收到了其他数据收集方法存在的证据,例如出版商直接从人们那里收集个人数据并以透明的方式许可这些数据。因此,我们鼓励开发者尽可能寻找其他数据源。当控制者试图证明网络抓取是必要的时,他们应该解释为什么他们不能使用不同的数据源。我们将与开发者、技术公司、学术研究人员和非政府组织进一步接触,讨论网络抓取对训练GAI的必要性。作为这次咨询的一部分,我们要求提供组织可以部署的潜在技术和组织保障措施的证据,以减轻任何已识别的风险。我们认为这在考虑合法利益平衡测试时特别相关。一些回应者——特别是来自行业的回应者——认为使用“开放访问”模型的许可和使用条款提供了保障。他们说这有助于减轻人们可能因下游部署AI模型而面临的风险。然而,当开发者想要依赖许可和使用条款来减轻下游部署带来的风险时,他们需要证明这些安排包含数据保护要求。他们还需要确保这些要求得到满足,以便保障措施在实践中有效。我们还收到了许多关于可以部署的技术保障措施的建议。然而,总的来说,除了理论上的或概念验证的建议外,咨询回应没有提供足够的可验证证据,以适当评估这些保障措施在实践中的有效性。此外,我们知道许多控制者在依赖网络抓取的数据开发AI模型时,没有满足第14条的基本透明度义务。为了证明实现合法利益所选择的方法是合理的,控制者应该正确定义他们的所有目的,并为收集的每种类型的数据的使用提供理由。他们必须以一种让人们更好地理解组织为何使用他们的数据的方式表达这些目的,并根据我们的指导,说明所讨论的数据发生了什么。控制者必须考虑到第12条的模态要求,清晰、透明、易懂、明确和平实地表达目的。因此,我们鼓励开发者考虑他们如何可以使用新的和创新的透明度机制和保障措施,使人们对数据处理有更深入的了解,并使他们处于更有利的位置以行使其信息权利。这是我们将继续监控的一个领域,我们强烈鼓励GAI开发者进一步与我们接触。此外,当AI模型开发者使用个人数据时,他们应在平衡测试中评估对人们的财务影响。例如,如果一个时尚模特可能会因为AI模型使用他们的个人数据创建他们的数字版本(如化身)来取代他们在时装秀中的位置而失去收入。我们最初没有专注于特殊类别数据。然而,许多回应者提出了将这些数据用于AI训练作为一个突出问题。我们目前正在根据我们现有的立场审查AI开发者使用特殊类别数据的情况。最后,与处理非特殊类别个人数据一样,无论控制者是否打算处理特殊类别数据,在确定该数据是否属于第9条时仍然是无关紧要的。唯一的例外是,如果一个第9条类别可以被推断出来,但没有意图进行该推断。简要来说:我们在GAI背景下对目的限制的立场保持不变。
回应者
在2024年2月,我们发布了咨询系列的第二章。这一章阐述了我们对AI生命周期中目的限制原则解释的政策立场。这建立在我们2020年核心指导中关于人工智能和数据保护的现有立场之上。
我们收到了来自组织的46份回应,只有一位回应者是公众成员。16份回应通过我们的调查收集,另外30份直接通过电子邮件接收。最具代表性的行业包括:创意产业(14);贸易或会员机构(8);研究领域(6)。
在关于目的限制的咨询中,回应者之间形成了普遍共识。12位(75%)回应者同意我们的整体分析。
在我们原始的证据征集中,我们阐述了对AI生命周期中目的限制原则解释的立场。简而言之,关键立场如下:首先,我们确定训练和部署AI模型的不同目的必须是明确和具体的。这样做是为了使控制者、处理者和数据主体能够清晰地理解为何以及如何处理个人数据。其次,我们解释说,那些重复使用个人数据来训练AI的开发者必须考虑训练模型的目的是否与他们最初收集这些数据的目的相兼容。这被称为兼容性评估。第三,我们解释说,开发一个AI模型和基于这样一个模型开发应用(无论是否微调)构成了不同的目的。这些目的除了组织在整理网络抓取数据的存储库时可能追求的最初独立目的之外。回应中的关键点
在咨询回应中,关于定义明确和特定目的,出现了以下关键点:
-包括AI开发者和一些律师事务所在内的回应者认为,AI“开放式”的下游使用使得开发者在开发阶段难以明确处理的目的。-另一方面,许多回应者,包括民间社会和创意产业,认为“开发模型”这一目的过于宽泛,没有使模型的用途更加清晰。一些民间社会的回应者认为,在处理数据以训练模型时,定义一个明确和特定的目的是不可能的。-大多数回应者同意,使用数据对模型进行微调的目的更有可能满足目的限制原则的要求。这是因为处理的目的更加明确和具体,涉及的数据处理较少。-一些金融领域的下游AI部署者提出,由于目的在开发阶段就被确定和限制,他们的选择用例的能力将受到限制。他们认为这可能抑制创新和有益的用途。在此基础之上,人们强调了在遵守目的限制原则时透明度的重要性:
-特别是创意产业的回应者认为,关于处理个人数据的目的的清晰文件是必要的。这除了数据收集的来源和背景、法律基础、完成DPIA(数据保护影响评估)以及展示他们如何满足英国GDPR第13条和第14条之外。-AI的部署者还概述了开发者需要提供关于他们模型的可预见下游应用的指导,包括其能力和限制。这与开发者如何监控“现成的”或“开放访问”产品及服务在实践中的使用有关。-贸易和会员机构对商业秘密表示担忧,并呼吁采取平衡的透明度方法。例如,过多地透露模型训练的目的可能会向竞争对手透露产品信息。-回应者还建议更广泛地使用合同和使用条款(ToU),以确保在生命周期的每个阶段,处理个人数据的目的都向相关人员明确。关于重复使用个人数据训练AI,出现了以下关键点:
-开发者希望对数据保护的目的限制原则在重复使用数据训练AI方面有一个宽泛的解释,以更大的创新作为理由。-但创意产业的回应者一直认为,AI开发者没有理解明确重复使用个人数据的目的的重要性。他们还认为开发者没有意识到个人数据通常嵌入在受版权保护的作品中,创意工作者依赖这些作品获得报酬。-许多回应者,特别是来自创意产业的回应者认为,公司在未经许可的情况下获取和使用包含个人数据的内容不符合人们的合理期望。这是因为人们不希望公司免费使用这些信息,而不支付费用或不予承认。-技术和会员机构提出,重复使用个人数据训练AI对创新至关重要。关于最初开发AI模型,然后基于这样的模型开发应用(无论是否微调)构成不同目的,出现了以下关键点:
-大多数回应者认为,为开发和部署设定不同的目的对于确保数据最小化和检查每个阶段都有适当的法律基础是必要的。-广泛的回应者强调,分离目的支持基于风险的方法。这是因为他们可以为生命周期的每个阶段的潜在伤害提供适当的审查、保证和监督。-技术和会员机构有一种观点认为,开发和部署之间严格的区分可能会抑制创新,因为实际上开发和部署是循环的(例如,当模型参与持续学习时)。我们的回应
我们对我们关于AI生命周期中目的限制原则应如何解释的初始立场所获得的支持表示欢迎。我们对于我们的观点——开发AI模型和基于此类模型开发应用构成数据保护下的不同目的——得到了积极回应,我们对此感到放心。
我们认识到,回应者对于什么构成了根据第5条(1)(b)款为训练GAI定义明确和特定目的有不同的看法。所有回应者的共同请求是ICO制定指导,包括示例,展示开发者在训练AI时如何展示足够详细和特定的目的。
我们将在下一次我们的核心AI指南中考虑这一请求,同时保持我们的咨询立场。我们一直表示,数据保护法认识到需要保护知识产权和商业秘密。例如,我们关于可解释性的指导指出,向人们提供关于处理的有意义的解释并不意味着包括源代码或专有算法。
回应者建议开发者可以使用合同或使用条款(ToU)来确保他们向其数据被用来训练模型的人,以及在部署期间使用其数据的人,以及ICO,明确他们的目的。合同或ToU可以详细说明处理的目的,并设定谁向哪个群体传达什么的期望。如果各方依赖合同或ToU来确保处理的目的向个人和其他方传达,他们需要确保这些合同或ToU中的要求是有效的。我们注意到,即使有合同或ToU在位,这些方将继续使用合法利益作为法律基础来处理数据。
简要来说:我们在AI中应用数据保护原则的准确性方面的立场基本保持不变。
回应者
在2024年4月,我们发布了咨询系列的第三章。这一章阐述了我们对训练数据和模型输出准确性的政策立场。我们收到了来自组织的25份回应,只有一位回应者是公众成员。9份回应通过我们的调查收集,另外17份直接通过电子邮件接收。最具代表性的行业包括:创意产业(8);贸易或会员机构(3);金融(3)。
在调查回应者中,有4位(44%)同意我们最初的分析,另有4位(44%)不确定。关于准确性的重要性有明显的共识。然而,回应者对于开发者或部署者应承担多大程度的责任以确保和传达准确性存在分歧。
在我们原始的证据征集中,我们阐述了对AI应用准确性原则的立场。我们主要依据现有的立场。简而言之,关键立场如下:首先,我们指出开发者需要知道他们的训练数据包含的是:准确、事实且最新的信息;历史信息;推断;观点;或关于人的AI生成信息。换句话说,开发者应相应地策划训练数据,以确保数据的准确性足以满足其处理目的。其次,我们确定AI模型的适当统计准确性水平与组织将使用模型的具体目的相关。例如,创建或使用AI模型以产生非事实性输出作为灵感来源,与用户依赖输出作为事实信息来源的模型,其准确性要求不同。最后,我们指出开发者应评估和传达错误和意外输出的风险及影响。他们还应提供关于应用的统计准确性及其预期用途的清晰信息。我们提供了可能措施的列表,包括将输出标记为由AI生成(或不是事实准确)以及提供关于输出可靠性的信息,例如使用置信度分数。首先,针对我们的观点,即开发者应确保训练数据由准确、事实且最新的信息组成,以下是关键点:-包括大型AI开发者在内的回应者表示,由于缺乏“真实情况”来衡量,验证训练数据集中的个人数据是否事实准确是不可能的。他们还补充说,将训练数据限制为准确的个人数据会因为数据多样性不足而对模型性能产生负面影响。
-来自创意产业、金融部门和媒体组织的许多回应者都提出了对开发者训练数据缺乏透明度的担忧,这意味着确定和质疑其准确性是具有挑战性的。创意产业还对网络抓取的数据很可能包含不准确的个人数据表示担忧。
-创意产业和媒体组织强调了高质量、准确的训练数据对于下游目的的重要性,组织依赖模型作为事实信息的来源。
-研究人员和学者强调了独立外部审计在确保准确的训练数据和模型开发中的作用。
其次,针对我们的观点,即特定目的决定AI模型的输出是否需要准确,以下是关键点:-普遍同意准确性的程度与AI模型的特定目的相关。我们从技术领域、创意产业和金融服务部门看到了这一点的跨领域共识。
-然而,创意产业的回应者对生成创意人物的相似度提出了特别关注。他们质疑创意目的是否需要较低的准确性,因为这可能导致误代表。相比之下,一家律师事务所认为,对于创意目的,准确性不那么重要,因为生成的内容不被视为事实。
-AI开发者声称,部署者和最终用户(即消费者)主要负责输出的准确性,因为他们单独定义了目的。一个行业组织强调,部署者也可能更好地理解模型的目的。
-相比之下,金融服务部门的一位回应者认为,尽管他们同意开发者无法完全预测所有潜在用途,但他们仍然主要负责输出的质量。
最后,在评估和传达错误和意外输出的风险及影响,以及提供关于统计准确性的清晰信息方面,以下是关键点:-普遍支持开发者提供关于模型统计准确性的清晰信息。一个行业和贸易机构描述了向部署者和用户通报AI系统的模型统计准确性是必要的。技术领域提供了技术报告、模型卡的例子,并澄清用户可能不准确的结果。他们还提到检索增强生成(RAG)作为确保准确性的方法。
-创意产业坚定支持标记和水印等措施,包括将元数据嵌入到输出中。一家律师事务所表示,这些类型的措施将需要满足准确性义务。
-另一家律师事务所担心,如果沟通和免责声明足以符合规定,这可能会激励开发者投入更少的资源以确保模型的稳健统计准确性。
-然而,一些回应者,包括来自技术领域的回应者,认为提供太多信息对开发者提出了不切实际的期望。他们可能无法预测模型的所有下游用途,甚至可能与最终用户没有关系。一些人还提出了水印的局限性,例如在文本输出中的有限使用和缺乏持久性。
-一些回应者强调了开发者可以部署的技术和组织措施的作用,例如监控输出和参与内容认证(例如C2PA)。一位AI开发者认为,对于开发者来说,监控用户生成的内容,如分析输入或跟踪公开共享的输出,并不总是可行的。
我们对我们关于准确性的立场所获得的总体支持表示欢迎。我们对我们的立场——准确性与模型的特定目的密切相关——得到支持感到放心。这与我们关于准确性原则的既定立场一致。我们理解回应者之间对于所需统计准确性的程度存在分歧,这意味着模型输出的准确性频率。正如我们在咨询中所说,开发者、部署者和最终用户之间的清晰沟通是确保统计准确性程度与模型最终应用相称的关键。在确保开发者使用准确数据训练模型方面,我们接受验证真实情况可能存在局限性。然而,这并不否定不准确的训练数据与不准确的模型输出之间的关系。正如我们在咨询中所说,AI开发者需要了解并透明地说明用于训练AI的训练数据的准确性。尽管准确的训练数据不会阻止AI模型产生幻觉,但它可以限制误差范围。包括创意产业和技术领域在内的许多回应者要求我们提供用例和示例,说明什么构成了评估和传达错误和意外输出的风险及影响的适当和充分手段。他们还希望获得关于统计准确性的清晰信息。我们将考虑在未来的指导更新中加入这些内容。我们承认对深度伪造、错误信息和使用人物相似度的担忧。虽然数据保护法在某些情况下可以适用于深度伪造的创建和传播,但其他立法如《在线安全法》、版权法和刑法也与解决这些技术造成的伤害相关。我们还理解,我们最初提出的许多保障措施可能存在技术局限性,或者构成新兴而非经过严格测试的做法,例如文本水印。不幸的是,我们收到的证据很少,无法证明技术措施的可行性或缺乏可行性。我们将继续监控保障措施,并期望AI的利益相关者和创新者提供新颖的解决方案,以确保人们能够以适当于开发者已知的统计准确性水平的方式使用模型。简要来说:我们对于控制者响应人们信息权利的立场基本保持不变。详见:https://ico.org.uk/about-the-ico/what-we-do/our-work-on-artificial-intelligence/generative-ai-fourth-call-for-evidence/
⭕️组织必须设计和构建有效实施数据保护原则的系统,并将必要的安全措施整合到处理过程中。这将反过来使组织更好地遵守协助人们信息权利的要求。⭕️尽管我们在本章中提到了第11条,但组织不应将其视为避免义务的方式。组织需要证明在任何情况下依赖第11条都是适当和有理由的。他们仍然必须给人们提供更多信息的机会,以使他们能够识别自己的数据。回应者
在2024年5月,我们发布了咨询系列的第四章。这一章阐述了我们对将信息权利工程化到AI模型中的政策立场。
我们收到了来自组织的28份回应,其中三位回应者是公众成员。6份回应通过我们的调查收集,另外22份直接通过电子邮件接收。最具代表性的行业包括:创意产业(11);行业团体(4);技术、保险和民间社会部门(各3)。
在调查回应者中,有3位(50%)同意我们最初的分析。对于信息权利的重要性有明显的共识。然而,在如何确保信息权利被工程化到AI中的问题上,存在分歧,尤其是来自技术公司,缺乏证据。
在我们原始的证据征集中,我们阐述了关于信息权利和AI的几个立场。简而言之,关键立场如下:首先,当AI的开发者和部署者是控制者时,他们需要展示他们有清晰而有效的过程,以使人们能够行使其对个人数据的权利。这适用于他们的数据是否包含在训练、微调或输出数据中,也适用于模型本身。其次,开发者和部署者需要证明他们如何确保人们能够获得关于其个人数据使用情况的有意义、简洁且易于获取的信息。第三,开发者和部署者需要明确证明使用任何豁免的理由,并展示他们是如何保护人们的利益、权利和自由。最后,我们讨论了第11条。我们说,如果开发者辩称他们无法响应请求,因为他们无法识别个人(在训练数据或任何其他地方),法律要求他们向请求者解释这一点,并证明为什么是这样。在AI开发者和部署者需要展示他们有清晰而有效的过程以使人们行使其权利方面,回应中出现了以下几点:-创意产业的回应者认为,AI的开发没有尊重创作者的信息权利。他们认为AI开发者主要负责确保信息权利得到行使。-一些回应者,特别是AI开发者和行业团体,一直认为一旦数据被摄入并编译到训练数据集中并用于训练AI模型,就很难促进人们行使信息权利。一家大型AI开发者认为,部署者应该主要负责促进信息权利。-AI开发者和行业回应者主要认为,某些措施,如重新训练模型以消除个人数据的影响,是不切实际的或技术上不可行的。他们反而认为,更正和删除等问题应该在应用层面上解决,特别是通过使用输出过滤器。-民间社会的回应者认为,如果AI开发者不能维护信息权利,那么他们的开发和部署就是非法的。他们说,不合规的模型必须在合规数据上重新训练。他们认为,仅仅因为有些人声称它们是创新的,就不能存在不合规的模型。他们还说,虽然他们接受新技术需要新的方式来满足信息权利,但未经测试和未经证实的方法是不可接受的。在需要AI开发者和部署者证明他们如何确保人们能够获得关于其个人数据使用情况的有意义、简洁且易于获取的信息方面,回应中出现了以下关键点:
-AI开发者和行业团体认为,通知每个被网络抓取数据的人是不合适的。他们参考了英国GDPR第14条(5)(b)款的豁免。该条款规定,当从除个人以外的其他来源接收个人数据时,如果提供这些信息证明是不可能的,或者将涉及不成比例的努力;或者可能使处理的目标无法实现或严重受损,则控制器在知情权下的义务可以免除。-然而,民间社会团体和创意产业认为,网络抓取是无形的处理。他们认为,即使考虑到第14条(5)(b)款,这种处理无法满足人们的合理期望。-AI开发者和行业团体认为,他们通过通常解释他们正在使用公开可访问数据的公共通知来满足透明度和通知要求。一些人还认为,广泛的源数据类别,如“公开可访问信息”,提供了适当的透明度水平,而不是详尽的来源列表。在需要AI开发者和部署者清楚证明使用任何豁免的理由并展示他们如何保护人们的利益、权利和自由方面,回应中出现了以下关键点:
-科技行业贸易团体提出了第11条,并认为如果开发者无法识别模型中的数据与谁有关,那么它就不是个人数据。-一家律师事务所认为,数据最小化很重要。他们说,精确的收集标准和排除某些来源在保护权利和自由方面起着关键作用。-这与许多回应者提出的另一个观点相关,即大多数人没有能力获取有关处理的信息或理解技术细节。组织不应依赖他们找到正确的信息并行使其权利。-我们收到了许多关于机器“反学习”的论点。这些主要指向其理论应用,而不是任何当前的实际使用。-技术领域和行业团体强烈强调输入和输出过滤器作为一种合适的保障措施。民间社会对这些过滤器的有效性表示强烈怀疑,引用了通过提示注入越狱的容易性。我们欢迎所有回应者对在AI背景下确保信息权利重要性的共识。至关重要的是,在AI的生命周期中,组织必须有流程来使人们能够行使并记录他们的信息权利。然而,我们没有从AI开发者或更广泛的行业收到关于能够使人们行使权利的实际措施的清晰和可验证的证据。默认情况下,以设计为中心的数据保护是一项法律要求。这意味着,当组织开发AI系统时,他们必须从一开始就采取适当的措施来保护人们的权利。我们越来越担心,许多开发和部署AI模型和系统的组织没有措施来有效响应人们的信息权利请求,特别是当这些请求涉及网络抓取的个人数据时。在缺乏有效工具来满足人们的请求的情况下,根据组织的合法基础,他们的处理可能是非法的。
并非所有信息权利都是绝对的。例如,如果一个组织依赖合法利益作为合法基础,并且仍然有一个压倒性的合法利益在继续处理(这也通过了三部分测试),那么被遗忘权就不适用。然而,组织必须逐案考虑权利请求。可能有一些情况,他们没有可以压倒个人权利的令人信服的合法理由。
许多回应者提到输出过滤器作为实现信息权利的有用工具。然而,这些可能不足以实际从模型中移除数据。
因此,组织必须有机制来满足训练数据的信息权利请求,如果模型包含个人数据,还必须满足对训练模型本身的请求。控制者负责遵守人们的信息权利。如果开发者和部署者是联合控制者,他们必须确定哪一个最适合响应信息权利请求。
我们期望AI开发者和部署者大幅改善他们履行对人们的透明度义务的方式,以有意义的方式而不是象征性的姿态。测试已经实施的措施是否真正有效,以及新的和更有创新性的解决方案,可以帮助组织遵守透明度原则。这可能有助于他们遵守合法性和目的限制原则。它还将使人们能够获得关于处理的有意义的信息,以便他们可以行使信息权利。我们将继续与利益相关者接触,推动有效的透明度措施,在我们的监管期望被忽视时,我们不会回避采取行动。
最后,控制者不应如此广泛地应用第11条,以至于破坏人们的权利。要依赖第11条,控制者需要确定他们无法识别个人。控制者必须逐案评估他们识别个人的能力。在控制者无法识别个人的情况下,他们应该通知该人,并提供容易的方式让该人提供额外信息。这可能使组织能够识别该人的个人数据。此外,第11条旨在防止不必要的数据保留,符合数据最小化原则。
我们对控制权分配的立场保持不变。具体分析见:https://cy.ico.org.uk/about-the-ico/what-we-do/our-work-on-artificial-intelligence/response-to-the-consultation-series-on-generative-ai/allocating-controllership-across-the-generative-ai-supply-chain/。在2024年8月,我们发布了咨询系列的第五章。这一章节阐述了在AI供应链中分配控制权的政策立场。我们收到了16个组织的回应,其中一位回应者是公众成员。通过我们的调查问卷收到了7个回应,另外9个则是通过电子邮件直接收到的。与之前的咨询相比,技术领域(五个)的代表最多。创意产业只有一个回应。行业团体(四个)和律师事务所(两个)是接下来最具代表性的。
在调查问卷的回应者中,有五人(71%)同意我们最初的分析。
我们最初的证据征集中,我们阐述了关于控制权和AI的立场。以下是这些立场的回顾:首先,我们指出,合同并不一定决定一个组织是控制者、共同控制者还是处理者。相反,这由处理活动的实际现实决定。在AI中,“开发者”和“部署者”的角色并不总是能够清晰地对应到控制者和处理者的概念上。在数据保护法律下的角色和责任也不是由其他法律体系决定的,比如知识产权法或竞争法。
其次,控制者、共同控制者或处理者角色的分配必须反映对每个不同处理活动的目的和手段的实际控制和影响水平。我们强调了这一点在像AI这样复杂的供应链中的重要性。
第三,我们指出,在AI模型发布谱系的“闭源”端,开发者与第三方部署者之间的关系意味着双方经常有共同的目标和影响处理活动。相比处理者-控制者安排,更可能的是共同控制者关系。
最后,我们指出,基于许多“封闭访问”场景中的当前实践,这样的开发者不太可能在部署阶段声称自己是处理者。这是因为AI开发者可能会影响总体决策(比如训练数据、模型架构、风险缓解和模型分发),这些决策预先决定了数据在部署期间将如何处理。这意味着共同控制者关系仍然是可能的。
在确定模型接近“封闭访问”端的模型访问谱系的手段和目的时:
-所有回应者都清楚地认识到,处理活动每个阶段的控制和影响程度不同是关键因素。这些因素使得分配控制权成为一个具有挑战性的任务。-AI开发者承认他们是模型开发阶段的控制者,但不想承担其模型下游部署的控制者责任。一位AI开发者表示,在某些情况下,如果他们是根据第三方的指示行事,他们可能会认为自己是处理者。-技术和贸易会员机构普遍认为,AI开发者在部署阶段对目的或手段没有足够的控制或影响,因此不应被视为该阶段的控制者或共同控制者。相反,他们声称自己是处理者。关于“封闭访问”模型的共同控制权:
-一个行业机构和技术领域的回应者(包括两位AI开发者)都同意,在某些情况下,他们可能是共同控制者。然而,他们争论说,在大多数情况下,部署者为处理个人数据确定完全独立的用途(例如,当微调模型时)。因此,他们认为自己是一个独立的控制者。-一个行业和贸易会员机构提出,在共同控制权的情况下,一方可能拥有主导的谈判地位。他们可能会不公平地将义务推给另一方。他们还提出,作为一种复杂的安排,它可能会导致在回应主题访问请求时出现延迟。-一家技术公司争辩说,共同控制权并没有提高法律确定性或责任性。相反,他们认为这造成了混乱。他们主张明确的合同,明确界定角色和责任,作为首选解决方案。我们理解,在像AI这样复杂的供应链中分配责任可能比在更简单的情境中更具挑战性。这就是为什么在证据征集中,我们欢迎有关部署者和开发者在分配责任时所做的复杂决策的真实生活证据。基于我们收到的证据,我们维持我们的咨询立场,并继续与有疑问的行业进行接触。
AI开发者的总体决策可能会影响模型在部署阶段的运作方式。因此,存在一种风险,即“封闭访问”模型的部署者可能对部署过程中的所有处理没有实质性的控制和影响。在这种情况下,当考虑各方在处理中的角色时,考虑部署者拥有的信息和开发者提供的控制水平将非常重要。如果双方在部署阶段都保留共同的目标或影响,那么更可能是共同控制权。
一些利益相关者对共同控制权的含义也存在一些混淆。这并不意味着双方都有联合且相等的责任。共同控制权协议规定了各方的责任。这意味着他们不必对处理过程中涉及的所有内容承担联合责任。这是一种基于事实的评估。开发者和部署者之间建立的任何其他合同都不会推翻决定控制权的基于事实的评估。
许多回应者要求我们提供进一步的处理活动的实际例子,以清楚地展示控制权的例子,帮助组织理解他们的角色。鉴于不同情境和处理活动的种类繁多,我们欢迎与利益相关者就这一问题进行进一步的接触。
一些回应者建议,当开发者使用部署者的数据来改进自己的模型时,他们可以是处理者,因为部署者将从改进中受益。我们不接受这一论点。这与我们确定的立场相矛盾,即如果开发者为了自己的目的处理数据,他们就是该处理的控制者。客户也可能从中受益这一事实,并不足以使他们成为所有处理的唯一控制者。
这次咨询回应确认了我们当前的立场,并阐明了我们对AI的监管期望。那些对数据保护合规感兴趣的人仍然需要参考我们关于人工智能和数据保护的核心指导。随着《数据(使用和访问)法案》对数据保护法的修改,我们将更新并就我们的指导进行咨询,以反映这些变化,并包括AI。
我们的最终立场还将与我们即将与竞争和市场管理局(CMA)就基础模型发表的联合声明保持一致。这一声明将涉及数据保护与竞争和消费者法在这一复杂领域的相互作用。
人工智能(Artificial Intelligence, AI):能够执行通常需要人类智能的任务的计算机系统的理论和发展。
微调(Fine-tuning):在特定数据集上训练预训练模型以适应专门任务的过程,通过轻微调整其参数而不是从头开始。这在自然语言处理(NLP)和图像识别等AI应用中很常见,节省了时间和资源,同时利用了模型的基础知识。
生成式人工智能(Generative AI):能够生成类似于人类创造内容的输出的AI类型。大多数当前的AI系统都是基于Transformer架构。
幻觉(Hallucination, also referred to as confabulation):当一个A模型由于依赖其训练数据中的模式而不是事实理解而产生错误、误导或编造的内容时。
隐形处理(Invisible processing):人们不知道他们的个人数据正在被处理的处理方式,这削弱了他们的信息权利等。
机器去学习(Machine unlearning):调整一个模型的参数以消除特定数据的影响,尽管当前的技术对于像AI这样的大型AI模型来说并不具有可扩展性。
合成数据(Synthetic data):这是由数据合成算法生成的“人工”数据。它复制了真实数据(可能是个人数据)的模式和统计特性。它是使用训练有素的模型从真实数据生成的,该模型被训练用来复制其特征和结构。
Transformer架构(Transformer architecture):一种深度学习模型,旨在处理数据序列,例如文本,通过关注输入的不同部分之间的关系。Transformer速度快、灵活、易于扩展,并且在理解上下文方面非常高效,使它们成为生成系统的基础。