兰迪研究 兰迪研究
LANDING RESEARCH
兰迪研究
首页 兰迪研究 专业文章 文章详情
兰迪研究 | 生成式人工智能技术中训练数据的合规要点及建议

前言

 

数据在生成式人工智能(Generative Artificial Intelligence, 以下简称“GAI”)技术中扮演着十分重要的作用。本文基于中国现行有效的法律规定,参照其它国家或组织对相关GAI技术的法规与观点,针对GAI技术中训练数据环节的几项合规要点进行分析,并提出企业落地的合规建议,旨在为相关企业和人员提供参考。

 

一、数据在GAI技术中所起的作用

 

GAI是指利用算法训练数据从而具备自主生成新事物(如文本、图片、音频、视频等)能力的智能技术。自2022年11月OPEN AI 研发的聊天工具机器人ChatGPT问世以来,GAI技术的商业估值迅速飙升。与之相应而生的,是全球监管部门和民间社会对GAI技术在安全问题、伦理道德、知识产权保护等方面是否会带来风险的担忧。总的来说,目前各国监管部门的态度正逐步从最开始的禁止到有限度开放、支持发展探索的转变中。与以“专家知识数字化”为主导的传统判别式AI技术(如视觉识别、目标感知、决策制定、素材分拣)相比,GAI则是以“大数据大模型”为主导的内容输出式AI技术。聚焦于各自技术实现过程,GAI相比传统AI技术有以下三点区别:

 

(1)算法层面上。GAI一般采用机器学习和深度学习技术,而传统AI的算法则往往需要更加复杂的设计以实现多样化目的。值得注意的是,这并不意味着GAI的运算时间和算力要求比传统AI低。相反,正因为大数据模型的存在,GAI的算力要求呈爆炸式增长。

 

(2)数据层面上。GAI所需要的训练数据远大于传统AI。仅ChatGPT而言,参与训练的数据达到3000亿个,相当于互联网上所有英语文字总和。

 

(3)参数层面上。参数即为AI参与训练过程中学习和调整的变量。GAI所需的参数个数远大于传统AI。GPT-3拥有1750亿个参数,而作为全球最大中文语料库悟道2.0更是达到惊人的1.75万亿个。

 

定量地说,GAI系统所输出内容的性能与算力量、数据量、参数量成对数线性关系 [1]。数据量越大,输出效果越好。由此可见,相比传统AI企业,提供与使用GAI技术的主体对于数据的需求必然更加迫切,其数据应用场景也必然更加多元。因此,涉及GAI技术的企业在使用、处理数据过程中的合规问题也必然比传统AI系统更加复杂。

 

二、GAI技术中数据合规的主要规定

 

自2023年8月15日实施的《生成式人工智能服务管理暂行办法》(以下简称《暂行办法》)是我国为了促进生成式人工智能健康发展和规范应用制定的专项部门规章,明确了促进生成式人工智能技术发展的具体措施,规定生成式人工智能服务的基本规范。《暂行办法》的如下两条集中体现了对数据合规的要求:

 

1.《暂行办法》第4条要求,提供和使用GAI服务者,在进行训练数据时应当采取有效措施防止产生民族、信仰、国别、地域、性别、年龄、职业、健康等歧视;

 

尊重知识产权、商业道德,保守商业秘密,不得利用算法、数据、平台等优势,实施垄断和不正当竞争行为;

 

2.《暂行办法》第7条要求,AI服务提供者应当依法对生成式人工智能产品的预训练数据、优化训练数据来源的合法性负责,并遵守以下具体规定:

 

(1)使用具有合法来源的数据和基础模型;

(2)涉及知识产权的,不得侵害他人依法享有的知识产权;

(3)涉及个人信息的,应当取得个人同意或者符合法律、行政法规规定的其他情形;

(4)采取有效措施提高训练数据质量,增强训练数据的真实性、准确性、客观性、多样性;

(5)《中华人民共和国网络安全法》《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》等法律、行政法规的其他有关规定和有关主管部门的相关监管要求。

 

另外,《信息安全技术机器学习算法安全评估规范》规定:数据应当具有透明性(用户能够在必要时候获取模型有关信息)、可解释性(在计算过程中使用的数据、算法、参数和逻辑等对输出结果的影响能够被人类理解)、公平性(不引入偏见和歧视因素)和隐私性(采取隐私增强方案,如最小化数据处理范围、个人信息匿名化处理、数据加密和访问控制等)。国家标准《信息安全技术生成式人工智能预训练和优化训练数据安全规范》征求意见稿于2024年4月份发布,按照该标准的说明,其旨在于支撑上述《暂行办法》第7条对预训练和优化训练等训练数据处理活动规范的落地实施,试图明确生成式人工智能服务研发者在预训练和优化训练等训练数据处理活动中的数据来源等方面的管理要求,解决生成式人工智能服务可能存在的被诱导生成侵害他人知识产权、个人信息的内容等问题,提高生成式人工智能服务的安全性。

 

三、合规要点分析

 

基于上述规定,本文着重对如下三点做分析:

 

 1. “合法来源”的要求

 

在大数据的背景下,如何判断数据是否具备合法来源,可以从总体和具体两个侧面去解读。总体方面,《生成式人工智能服务安全基本要求》(以下简称《基本要求》)指出,企业在采集和训练两个行为作出前,均需针对来源数据进行安全评估,若单一来源数据含违法不良信息情况超过5%的,则不应使用该来源数据,可认定此中来源数据为不合法。对于如何进行安全评估这一问题《基本要求》也做出了明确回应,要求GAI服务提供者采用关键词、分类模型、人工抽检等方式,充分过滤训练数据中违法不良信息。

 

与此同时,对于不同类别的来源数据还应考虑更为具体的合规要求。数据来源可分为开源数据、自采数据、商业数据、合成数据四种,其各自的使用现状和合规事项存在差异。下面将一一评述。

 

针对开源数据。企业使用开源数据应当具有授权协议或相关文件。“数据二十条”和《暂行办法》鼓励推动公共训练数据资源平台建设。在我国,政府公共数据是重要的合法开源数据来源。企业可以在全国各省、市、地区的公共数据开放平台查找。公共数据一般会被分类为不予开放、有条件开放、无条件开放三个层级。在使用时,应当注意根据不同开放类别,以合法手段获取公共数据。对于无条件开放类的公共数据,企业可以直接采集获取,对于有条件开放的数据则应当向公共数据主管部门按照正常流程申报。同时企业应当注意合理使用,不得侵害数据主题合法权益,保持信息的客观准确性、时效性。

 

针对自采数据。自采数据包含在商业行为中用户提供的信息数据,企业自行生产的数据以及从互联网采集的数据。企业使用自采数据时应当具备采集记录;不得采集他人已经声明禁止采集的数据;采集数据不得妨碍被采集者正常经营。尤其是在采集来源于用户的数据时,《基本要求》规定GAI服务提供者应:a. 事前与用户约定能否将使用者输入信息用于训练;b. 设置关闭用户输入信息用于训练的选项;c. 将收集用户数据的状态,以及关闭方式显著告知用户。数据采集过程中还涉及到爬虫技术的合规应用问题,爬虫可能涉及到非法侵入计算机信息系统罪、破坏计算机信息系统罪等刑事法律风险,还可能涉及到个人信息保护侵权、著作权侵权、商业秘密侵权等民事法律风险,同时还有构成不正当竞争行为的风险,企业应当予以特别关注。

 

针对商业数据。商业数据是指在数据交易机构或者企业或个人间可以用于商业交易的数据。在使用时,需具备合法的交易合同,并将数据进行审核,对方无法提供数据合法性证明文件的,不应当使用。如果该类数据产品/服务通过数据交易所平台进行的话,通常交易所有公开的合规规范要求,也会要求由专业机构出具的数据产品合规报告来对合规性做事先审查。鉴于当前企业或个人独立的、直接的进行商业交易规模占据整个数据交易规模的95%,值得提醒交易方在该项商业行为中,要从数据授权、采集、处理、安全、应用等全链条做到合规。

 

针对合成数据。合成数据是指基于算法产生的虚拟数据,因其低价且易被获得,已成为真实数据的“平替”,在实践中被大量使用。其最为主要的合规风险是合成数据带来的偏差和错误。因此,建议企业在使用合成数据时应当注意保留一定比例的真实数据样本,限制合成数据的训练轮次,同时尽量不要在预训练阶段采用合成数据,避免模型底层逻辑偏差,并且在使用时应当对合成数据进行数据标识。

 

2. “不得侵害他人依法享有的知识产权”的要求

 

知识产权制度中和训练数据使用最相关的是著作权法相关的部分,目前国内已经诞生了关于GAI技术(具体为文生图相关)侵害著作权的实际案例。原告上海某文化发展有限公司(以下简称“原告”)享有奥特曼系列作品在国内的著作权授权。被告是一家AI技术公司,运营具有GAI绘画功能的Tab(化名)网站。2023年12月下旬,原告发现Tab网站可生成与奥特曼形象相同或相似的图片以攫取非法收益,原告认为被告侵害其对奥特曼作品享有的复制权、改编权和信息网络传播权。该案于2024年2月8日作出判决,判令被告停止侵害著作权行为,赔偿1万(含合理开支)。本案(以下简称Tab案)是我国乃至全球首例AIGC平台侵犯他人著作权的生效判决。

 

该案例对于GAI平台运营者的启示是:1. 加强内容监管,避免生产侵权作品,应采取关键词过滤、内容比对等内容管理的技术措施;2. 尽量使用具备合法来源的数据和素材;3. GAI技术运营平台应当建立投诉举报机制,及时受理、处理公众投诉举报并反馈处理结果。

 

值得思考的是,将训练数据使用行为解释为著作权法中规定的“合理使用”情况,可能是涉及GAI技术企业在面临争议时的最优合规路径选项,但是从目前我国《著作权法》及其实施条例的规定来看,还不能直接得出该种结论。通过司法实践案例积累,美国法院形成了对于合理使用较明确的分析思路:1. 使用行为的性质与目的;2. 版权作品的性质;3. 被使用部分的质和量与作为整体的版权作品的关系;4. 对版权作品潜在市场或价值的影响。该项标准具有一定的通用性。我国最高院在《关于充分发挥知识产权审判职能作用推动社会主义文化大发展大繁荣和促进经济自主协调发展若干问题的意见》中亦提到合理使用相关的判断标准:在美国法院提出的以上四条判断标准之外,额外要求“在促进技术创新和商业发展确有必要的特殊情形下”,“如果该使用行为既不与作品的正常使用相冲突,也不至于不合理地损害作者的正当利益,可以认定为合理使用”。

 

从立法层级来看,欧盟和日本均已对GAI的数据训练合规行为做了法律回应。2019年3月26日,欧盟颁布的《单一数字市场版权指令》中规定,在满足数据合法来源的前提下,认为科研机构和文化遗产机构以科研为目的的“文本和数据挖掘” [2] 行为属于可被许可行为;而针对商业性涉GAI企业在数据训练中的行为是否侵权的判定,采用默认许可与声明不许可相结合的方式,即数据合法获取且版权人未宣称保留文本和数据挖掘权的,则默认许可,若著作权人提出异议则开发者需删除其被异议内容。这点与国内《信息网络传播权保护条例》中“通知删除”规则具有相同逻辑。除此之外,《单一数字市场版权指令》还表示数据训练在数据获取和处理阶段适用合理使用,即便后续进入商业流程也同样如此。

 

日本在2018年新修改的《著作权法》中加入了GAI技术训练数据时使用版权作品的豁免情形。其《著作权法》第三十条第四款指出,“信息分析行为(即从大量受版权保护的作品和其他信息中提取、比较、分类和以其他方式分析与语言、声音、图像和其他构成信息的其他元素有关的信息)”,“如果不是为了自己或他人欣赏作品中表达的思想或感受”则可以使用;还指出,“在使用电子计算机进行信息处理的过程中,在无人感知作品表现形式的情况下使用”则可以使用。日本文化厅表示上述允许“非表达性使用”的条款目的就是为了鼓励人工智能、大数据技术的蓬勃发展。

 

3. “增强训练数据的真实性、准确性、客观性、多样性”的要求

 

这是涉及到数据质量风险问题,数据质量决定了输出内容的质量。

 

就真实性而言。使用低质量的数据,会导致输出违反常识、人伦或者带有性别、宗教和种族歧视性的低质量内容,更易产生带有诈骗、误导、虚假等不良信息,最后甚至造成整个GAI系统的“学习性反噬”。《基本要求》第8条规定了“在生成式人工智能技术研发过程中进行数据标注的,提供者应当制定符合本办法要求的清晰、具体、可操作的标注规则;开展数据标注质量评估,抽样核验标注内容的准确性;对标注人员进行必要培训,提升尊法守法意识,监督指导标注人员规范开展标注工作”。

 

就准确性而言。值得注意的是,法律上的“准确性”要与技术上的“准确性”加以区别。在法律上,根据英国数据保护机构的解释[3],训练数据在法律层面上的“准确性”应当理解为:训练所用的数据应及时更新,并确保不会对事实产生误导,并在必要时做出更正或删除。可见,这里的准确性带有时效和可修改因素。

 

就客观性而言。最初被采集的数据很可能存在不客观的一面。除了企业决策层带有主观思维偏好或处于公司利益考量因素以外,具体的采集手段也会导致企业的数据存在主观倾向。数据的价值其实也在于我们人类如何使用它,如何收集、加工和解读,这个过程必然带有主观考量。一旦任由主观性泛滥,会致使决策层出现误判,造成市场中充斥夸张、虚假信息,甚至导致企业在出现虚假宣传或者商业诋毁等不正当竞争性法律风险。

 

就多样性而言。多样化的数据集有助于模型更好地理解和感知不同的概念、语义和语法,从而提高模型输出效果,对于适应不同场景下的任务非常重要。

 

四、企业落地合规建议

 

就制度的构建而言,在AI技术迅猛发展的背景下,我们既要向技术创新者们强调法律合规的重要性,也要让他们明白法律并非阻碍前进的枷锁,而是指引方向的灯塔。对于新技术发展所必需的大规模、高质量数据集中受知识产权保护的内容,可以从促进AI技术发展的角度出发,考虑为其留出合理的使用空间。现行著作权法对于合理使用的条款并未完全封闭,未来可以考虑通过著作权法实施条例的细化规定,来明确新技术、新场景下的合理使用条件。

 

就企业的落地而言,合规之路需要在实践中不断摸索与调整,边跑边思考,在不同阶段有不同的暂定解。结合笔者遇到的咨询案例,有如下几点建议供企业参考:

 

1. 关注数据采购端合规:采购大模型服务时,一方面应当关注服务提供方或者其背后的基础模型供应商所采取的技术保护措施;另一方面基于对企业商业秘密、业务信息、人员信息等的保护,可以通过合同条款明确禁止模型供应商使用企业自有的数据进行约定目的之外的二次加工或模型训练。

 

2. 分类细化数据管理模式:从制度上,一方面有清晰的数据采集制度,根据数据的不同类别,获取数据的不同方式,建立数据来源和内容合法性的审查机制;并将这些机制嵌入到公司的工作流程中,确保审查机制的落地;另一方面建立涉数供应商的管理体系,从技术上,能区别真实数据与虚拟数据、最新数据和历史数据、原始数据与生成数据,对做到分类管理与使用,同时按制度定期完成数据更新与删除工作。

 

3. 记录管理数据训练过程:一是做好训练数据的准确性对生成内容的影响的记录,积累在企业垂直应用场景中的实例;二是对于来源于企业客户/合作伙伴等第三方的数据,若企业拟将其用于模型的训练,应当提前在合作协议或产品协议中说明企业对哪些数据字段,做了何种的收集、加工及应用,同时对相应的成果的合法拥有或控制权做出明确约定。举个例子来说明这一点:一家工业领域人工智能服务提供商,其服务可以协助客户及时准确的发现工业设备的故障,相比传统人工核验的方式,有了AI技术的助力效率更高、成本更低。该服务商通过传感器、接口对接等多维度方式,采集客户设备数据,在给客户提供即时服务的同时,这些来自真实应用场景、高时效性、高质量的数据对于该人工智能服务提供商来说是很好的AIGC模型训练数据。在该业务场景下,该服务商应当关注和训练数据使用相关的具体问题,比如此类工业设备制造商在出售设备时,是否和其客户约定了设备数据的使用权限?设备数据存储在公司的服务器上还是客户的服务器上?公司与其客户协议之中对于数据使用权有何种约定?公司的AIGC模型的部署方式如何?这些约定对于训练数据的合法使用都很有必要。

 

4. 建立畅通内外沟通机制:一方面通过清楚、透明、简洁的方式向用户表明AI产品在准确性方面的局限性;另一方面通过邮件、企业微信、系统等方式为第三方主张其合法权利提供便捷的通道,既能体现企业对于他人权利保护的主观上的善意,也能在发现问题时及早通过沟通、协商的方式予以解决。

 

5. 加强内部员工培训考核:训练数据的合规使用是企业数据合规中的一部分,面对新工具、新场景,企业对相关部门的员工做针对性培训。多样化的培训方式加上必要的考核机制,可以帮助员工尊重和理解训练数据使用的合规要点,有助于员工在具体的工作中落地企业要求。

 

参考资料

[1] 孙凝晖《人工智能与智能计算的发展》2024年5月

[2] 在《单一数字市场版权指令》中,文本和数据挖掘是指任何以分析数字形式的文本和数据为目的技术,以便生成包括但不限于模型、趋势、相关性等在内的信息。

[3] 英国数据保护机构(Information Commissioner’s Office, ICO)https://ico.org.uk/for-organisations/uk-gdpr-guidance-and-resources/data-protection-principles/a-guide-to-the-data-protection-principles/the-principles/accuracy

 

RECOMMEND
相关推荐