基于产业逻辑的生成式人工智能法律监管解读
2023年7月10日,国家网信办联合发改委、教育部、科技部、工信部、公安部、广电总局共同发布了《生成式人工智能服务管理暂行办法》(以下简称《暂行办法》),自2023年8月15日起正式施行。该《暂行办法》在《生成式人工智能服务管理办法(征求意见稿)》(以下简称《征求意见稿》)的基础上修订而成,旨在为我国人工智能行业的发展提供更为明确的监管指导。
本文基于产业逻辑视角,从监管原则、产品阶段、重点问题入手,对《暂行办法》提出的监管要求,结合原《征求意见稿》的修订历程进行全方位解读,以期为生成式人工智能服务产业提供些许参考。
一、监管原则的确立
在全球激烈竞争的环境下,各国在数字领域的立法面临着平衡发展与安全两者之间的挑战。
一方面,人工智能的进步极大地提高了社会生产力,推动了经济发展和社会进步,成为相关国家实现科技领先和经济繁荣的关键。如美国2022年提出的《人工智能能力和透明度法案》,要求将人工智能作为国家发展战略的重点,通过加强人才培养和技术应用来提升美国在该领域的竞争力[1]。
另一方面,生成式人工智能服务的快速发展引发了许多伦理和法律方面的新问题,亟待监管部门出台相关政策予以规范和引导。因此,各国在推动生成式人工智能快速发展的同时,也需要建立健全法规体系,确保其健康和可控的发展。我国本次出台《暂行办法》提出发展和安全并重原则、促进创新和依法治理相结合原则,力争在监管框架下采取有效措施鼓励生成式人工智能创新发展。
(一)坚持发展和安全并重原则
本次《暂行办法》较此前《征求意见稿》,在明确规定提供者应依法承担网络信息内容生产者责任,履行网络信息安全、个人信息保护等义务的同时,更强调了国家鼓励支持生成式人工智能服务创新性发展的理念。
这一方面体现在《暂行办法》首次将《科学技术进步法》列为上位法,以推动人工智能服务科技创新为立法导向,以科学合理加强产业监管为立法理念。另一方面体现在《暂行办法》的多项原则性条款和具体规定中。《暂行办法》第三条规定,国家采取有效措施鼓励生成式人工智能创新发展,对生成式人工智能服务实行包容审慎和分类分级监管。《暂行办法》第五、六条着眼于算力、数据、基础技术三方面,提出要促进算力资源协同共享,推动扩展高质量的公共训练数据资源,鼓励生成式人工智能芯片及配套软件平台等基础技术的自主创新,并对生成式人工智能的创新、发展、协作、共享作了规定,为促进生成式人工智能健康发展和规范应用提供法律依据和制度保障。
(二)促进创新和依法治理相结合原则
《暂行办法》侧重从风险防范的角度出发,试图通过对人工智能应用引起的潜在风险进行分级和评估等前置监管措施,来控制人工智能服务应用过程中可能出现的各种风险[2]。其中,第三条规定了我国对生成式人工智能服务实行分类分级监管制度,第十六条进一步规定国家有关主管部门应完善与创新发展相适应的科学监管方式,制定相应的分类分级监管规则或者指引。分类分级监管要求监管力度随应用场景类别、风险级别作出相应变化,这确保了监管的精准性,有利于在保障生成式人工智能服务合规的同时,降低企业被监管成本。这一分类分级监管规则,可能在一定程度上借鉴了欧盟《人工智能法》[3]草案中根据风险原则分类分级管理的制度,即对不同风险等级的人工智能技术进行划分,并提出对应的监管要求。
然而,《暂行办法》尚未对分类分级监管制度做出完整性规定,如何实现生成式人工智能服务的分类分级监管有待进一步明确。
上下滑动阅览
二、基于产业逻辑的四大阶段
《暂行办法》按照产品的生命周期,创新性地将生成式人工智能服务的法律监管过程划分为算法设计、训练数据选择、模型生成和优化、提供服务共四个阶段。以下,我们将对《暂行办法》中规定的提供者在各阶段的合规义务进行逐步拆解与分析,为产业界明晰具体合规路径提供参考。
(一)算法设计阶段
1、算法设计合法合规义务
数据和算法是构成生成式人工智能的两大要素,尤其是算法的设计直接决定了该技术的价值取向。算法通过提取数据集中的模式,并加以放大或过滤,将开发者的偏好及价值判断深深植入生成内容当中,极有可能存在潜在的道德风险[4]。基于此,《暂行办法》第四条要求生成式人工智能服务的提供者在算法设计、训练数据选择、模型生成和优化、提供服务等过程中,坚守公序良俗,采取有效措施防止产生民族、信仰等算法歧视,并规定了生成式人工智能服务提供者应履行尊重知识产权、不进行垄断和不正当竞争行为、保护个人信息权益等义务。
2、安全评估和算法备案义务
《暂行办法》第十七条规定,提供具有舆论属性或者社会动员能力的生成式人工智能服务的服务提供者,应当开展安全评估,履行算法备案和变更、注销备案手续[5]。
结合《具有舆论属性或社会动员能力的互联网信息服务安全评估规定》、《算法推荐规定》可知,“具有舆论属性或者社会动员能力”,具体指拥有提供公众舆论表达渠道或者具有发动社会公众从事特定活动的能力,如提供者提供的生成式人工智能服务包含聊天室、短视频、信息分享、小程序等信息服务或者附设相应功能[6]。若满足上述情形,提供者应当在提供服务之日起十个工作日内通过互联网信息服务算法备案系统填报服务提供者的名称、服务形式、应用领域、算法类型、算法自评估报告、拟公示内容等信息,履行备案手续。完成备案的算法推荐服务提供者应当在其对外提供服务的网站、应用程序等的显著位置标明其备案编号并提供公示信息链接。
(二)训练数据选择阶段
个人隐私、知识产权、商业秘密以及国家秘密等都有可能以数据的形式存在于计算机信息系统之中。然而,作为一种多模态预训练模型,生成式人工智能如ChatGPT在运行过程中需要大量数据,这无可避免地会涉及到各种敏感信息[7]。就训练数据选择阶段而言,如何确保训练数据获取的手段、来源、形式的合法性,以避免其对国家安全、社会管理秩序、个人信息等其他法益造成侵害,是本阶段的合规要点。
根据《暂行办法》第七条,提供者应当依法开展预训练、优化训练等训练数据处理活动,确保处理活动中使用数据的来源及形式的合法性,不侵害他人依法享有的知识产权,保护个人信息安全[8]。此外,提供者应当以数据的真实性、准确性、客观性、多样性为标准,采取有效措施提高训练数据质量。对于需要数据标注的,应当制定清晰、具体、可操作的标注规则,并开展数据标注质量评估,核验标注内容的准确性[9]。
(三)模型生成和优化阶段
在模型生成和优化阶段,基础模型或专业模型采用的训练方法,包括预训练、优化训练等,应当符合法律、行政法规,与社会主义核心价值观相一致,不存在侵害他人合法利益、进行垄断或不正当竞争、算法偏见或歧视等情况。
(四)提供服务阶段的六大义务
1、个人信息保护义务
生成式人工智能服务提供者应当依法承担网络信息内容生产者责任,履行网络信息安全义务。涉及个人信息的,应当依法承担个人信息处理者责任,履行个人信息保护义务,并与注册其服务的生成式人工智能服务使用者签订服务协议,明确双方权利义务[10]。
提供者对使用者的输入信息和使用记录应当依法履行保护义务,不得收集非必要个人信息,不得非法留存能够识别使用者身份的输入信息和使用记录,不得非法向他人提供使用者的输入信息和使用记录。提供者应当依法及时受理和处理个人关于查阅、复制、更正、补充、删除其个人信息等请求[11]。
2、生成内容的标识义务
生成式人工智能服务提供者应当按照《互联网信息服务深度合成管理规定》对图片、视频等生成内容进行标识[12]。
3、用户指导及防沉迷义务
生成式人工智能服务提供者应当明确并公开其服务的适用人群、场合、用途,指导使用者科学理性认识和依法使用生成式人工智能服务,采取有效措施防范未成年人用户过度依赖或者沉迷生成式人工智能服务[13]。
4、违法行为阻断义务
生成式人工智能服务提供者发现违法内容的,应当及时采取停止生成、停止传输、消除等处置措施,采取模型优化训练等措施进行整改,并向有关主管部门报告。提供者发现使用者利用生成式人工智能服务从事违法活动的,应当依法依约采取警示、限制功能、暂停或者终止向其提供服务等处置措施,保存有关记录,并向有关主管部门报告[14]。
5、用户投诉响应义务
生成式人工智能服务提供者应当建立健全投诉、举报机制,设置便捷的投诉、举报入口,公布处理流程和反馈时限,及时受理、处理公众投诉举报并反馈处理结果[15]。
6、保证服务供给义务
生成式人工智能服务提供者应当在其服务过程中,提供安全、稳定、持续的服务,保障用户正常使用[16]。
上下滑动阅览
三、重点监管问题解读
相较于《征求意见稿》,《暂行办法》在逻辑结构上设计得更为合理、准确。此外,《暂行办法》还对《征求意见稿》中规定较为模糊以及存在争议的部分进行了修订,对适用范围、监管原则、术语定义等方面进行了进一步的完善,对相关行业企业提出了新的要求。以下,我们将围绕三个较为突出的差异点进行简要评析。
(一)监管的主体范围以及例外排除
《暂行办法》第二条第一款规定了本法适用对象为“利用生成式人工智能技术向中华人民共和国境内公众提供生成文本、图片、音频、视频等内容的服务[17]”,即提供生成式人工智能服务的主体皆适用本法规定。对比《征求意见稿》,《暂行办法》将适用主体中的“研发、利用”更正为“利用”,这一变化展现出《暂行办法》对于研发领域未作要求,明确了适用主体仅为“基础模型—专业模型—服务应用”这一分层业态中的服务应用者[18]。这体现出本法重点在于规制服务应用层面的安全。
此外,《暂行办法》附则章节第二十二条对“生成式人工智能服务提供者”定义为“利用生成式人工智能技术提供生成式人工智能服务(包括通过提供可编程接口等方式提供生成式人工智能服务)的组织、个人[19]”。可知本法规制的服务提供者共分为两类,第一类为能够在特定场景下直接提供服务的提供者(如ChatGPT),第二类为通过提供可编程接口(API)等方式间接提供生成式人工智能服务的提供者,我国目前生成式人工智能服务者多属于第二类。
值得注意的是,《暂行办法》的监管对象并不仅限于服务提供者。《暂行办法》第四条针对“提供和使用生成式人工智能服务者”进行了原则性规定,即防止算法歧视、保障第三方合法权益、提升透明度等条款同样约束服务使用者。生成式人工智能服务使用者如何达到上述要求,推动生成式人工智能服务内容的准确性及可靠性,也将作为今后监管要点。
《暂行办法》第二条第二、三款还规定了例外排除的情形。国家对利用生成式人工智能服务从事新闻出版、影视制作、文艺创作等活动另有规定的,从其规定;对于行业组织、企业、教育和科研机构、公共文化机构、有关专业机构等研发、应用生成式人工智能技术,而未向境内公众提供生成式人工智能服务的,不适用本办法的规定。换言之,本法将垂直领域的研发、内部应用以及不向社会公众开放的生成式人工智能服务排除在外。
(二)监管具体规则要求
纵观全球,各国对如何科学高效监管生成式人工智能服务处于积极探索状态。目前,各国监管规则建立主要围绕算法透明度、分类分级监管规则等核心议题展开。就我国而言,《暂行办法》首次对上述原则作出规定,为我国在全球化竞争局势下合理监管人工智能发展、以技术创新带动数字经济发展提供安全保障。
1.算法透明度规则
生成式人工智能服务的运行离不开算法,而算法在实施过程中又会带来“算法黑箱[20]”,产生算法滥用风险,导致决策过程中生成式人工智能服务提供者与使用者的不平等地位。
为此,《暂行办法》第四条新增“提升生成式人工智能服务的透明度”条款[21]。算法透明度是确保人工智能系统健康发展的一个重要方面。它要求算法的整个生命周期,包括设计、训练、优化和运行等过程,都需要对外提供一定程度的解释性,向监管方或用户公开或解释其算法运作逻辑、如何处理数据、处理结果等信息,以便进行有效的监督和评估[22]。透明化算法有利于行业相关方及用户加深对系统算法决策的理解,增加对生成式人工智能服务的接受度。提高生成内容的准确性和可靠性,方便有关评估机构对生成式人工智能服务的合规性进行评估,有利于行业性组织及有关机构对其进行动态监管,避免产生争议性的不当行为。
2、分类分级监管规则
“分类分级是指根据人工智能技术及其应用场景对可能产生的风险和影响进行不同程度地划分,并采取相应强度的监管措施[23]”。分类分级监管规则综合不同应用场景、人工智能技术、行业风险等情况,制定相应监管要求。有利于生成式人工智能服务提供者降低合规成本,扩大服务研发空间。
如前所述,我国虽制定了分类分级监管规则,但对于监管规则仍有待进一步细化规定。纵观外国实践,澳大利亚公布的人工智能立法计划中,明确将对人工智能进行分级管理,将人工智能分为低风险、中风险、高风险三种级别。欧盟《人工智能法》草案中将人工智能划为不可接受的风险、高风险、有限风险和低风险四个风险阶段,针对不同风险级别的人工智能系统提出针对性的监管要求。我国《暂行办法》中第四条、第十六条新增规定分类分级监管规则,此种监管方式与《数据安全法》中规定的数据分类分级保护有较大相似性,后续研究中可进行进一步关联思考。
(三)优化训练数据要求
在生成式人工智能服务快速发展的情况下,立法与监管部门须保持更大的谦抑性,表现出对市场、创新和产业自主性的尊重,以助力新技术在监管的引导下健康快速发展,真正造福社会[24]。基于此,本次《暂行办法》第七、八条对合规数据要求进行优化修改,降低了对生成式人工智能服务提供者在训练数据中的合规要求。
首先,《暂行办法》删除了要求提供者对生成式人工智能服务数据来源的合法性负责的相关款项,仅要求提供者使用具有合法来源的数据和基础模型,减轻了服务提供者在收集数据和训练数据过程中的负担。
其次,《暂行办法》对训练数据来源及形式的要求由“不含有侵犯知识产权的内容”变更为“涉及知识产权的,不得侵害他人依法享有的知识产权[25]”,为后续细化知识产权制度安排、提供者研发及应用预留空间。
再次,《暂行办法》第八条对数据标注做出进一步的明确规定,新增了开展数据标注质量评估、抽样核验标注内容准确性的规定,注重培养标注人员尊法守法意识,监督指导标注人员规范开展标注工作,使得数据标注制度更为明确、清晰、可操作[26]。
最后,《暂行办法》从我国目前生成式人工智能领域的产业实践和立法现状出发,将原《征求意见稿》中服务提供者需“保证”数据的真实性、准确性、客观性、多样性改为“采取有效措施增强”数据的真实性、准确性、客观性、多样性,减轻了服务提供者在把控训练数据质量方面的责任[27]。《暂行办法》对生成式人工智能服务者训练数据过程中的强制性要求改为了非强制性要求,体现了鼓励产业高质量发展的政策导向。
(四)比较法视野——欧盟及美国对训练数据的限制
从比较法视野出发,可得在欧盟和美国现行的法律框架下,生成式人工智能在收集、训练数据过程中进行的文本与数据挖掘行为仍然存在一定的法律风险,但并非没有豁免。
2019年,欧盟通过《单一数字市场版权指令》,以封闭性规范的方式将文本与数据挖掘列入了合理使用范围,并且对文本与数据挖掘版权例外制度的适用设定了相应限制条件。根据其第三、四条规定,科研及文化遗产机构以科学研究为目的的文本与数据挖掘属于合理使用。根据“法无禁止皆可为”原则,其他目的下(包括商业目的)的文本与数据挖掘行为实际上被赋予了一定的合法性,但可能因权利人声明保留而被推翻。整体而言,在欧盟《版权指令》框架下,行为人享有作品的阅读权即可享有作品的挖掘权,但需要为副本的保存提供安全措施。
美国在文本与数据挖掘中,则持更为开放的合理使用“四要素”判断标准。在使用目的和性质上,若使用是基于非营利性教育目的,则更有可能被视为合理使用;若是基于商业性使用,那么原则上不属于合理使用,但如果商业性使用能明显增进社会效益时,就可以构成“转换性使用”。简言之,如果使用者创造出来的新作品,有新的目的、特征、意义,可以贡献出独有的社会价值,那么就不构成著作权上的侵权。
上下滑动阅览
四、总结与展望
——中国(温州)数安港的有益探索
“智能时代是由大数据与人工智能等技术驱动发展的时代[28]”。伴随着生成式人工智能技术的兴起,ChatGPT等生成式人工智能将广泛应用于各社会领域,为经济社会带来新机遇。但同时也伴随着传播虚假信息、危害网络安全、侵害个人信息权益等风险。为此,《暂行办法》树立了生成式人工智能服务的基本规范,与《个人信息保护法》《数据安全法》《网络安全法》《著作权法》《互联网信息服务算法推荐管理规定》《互联网信息服务深度合成管理规定》一起,进一步完善了我国在人工智能领域监管的顶层设计,初步构建了我国生成式人工智能法律体系。
而面对不断修订的法规文件,人工智能行业面临新一轮合规挑战。“场景不明、红线不清”是对创新最大的阻碍,也对企业家构成未知的政策风险。目前,中国(温州)数安港致力于促进数据创新应用场景落地,推动大数据产业创新性发展。中国(温州)数安港数据安全合规管理委员会已成功举行三次数据安全合规论证会,通过了多个场景的数据安全合规论证,为促进数据创新应用场景落地,数据要素市场化交易提供保障。
浙江省大数据联合计算中心经浙江省政府批示大力支持的公共数据和企业数据流通的安全技术基座致力于打造贯穿数据全生命周期的数据流通基础技术平台,探索创设的“中立国”模式,以大数据联合计算平台作为数据流通基础设施,提出隐私计算与数据保护相结合的整体安全合规方案,设置“三审核三隔离”全链路流程,引入第三方合规机构对数据来源方的数据来源、处理等行为进行合规评估,具体场景由数安港专家委员会进行合规性论证落地,由政府不定期审计监督,从而保证数据价值的高效流转,促进数据要素的价值发挥。
在生成式人工智能如火如荼合规发展的道路上,浙江省大数据联合计算中心将与企业一道进行多场景下的数据安全合规研究完善,为企业提供数据全生命周期的安全合规保障,为中国法下分类分级监管制度设计提供有益探索经验。
[28] 周佑勇:《智能技术驱动下的诉讼服务问题及其应对之策》,载《东方法学》2019年第5期。
上下滑动阅览
本文作者
李浩川
常务副总经理、首席合规官
数据合规部
金俊州
高级合规顾问
数据合规部
张思甜
数据合规部
林楠雅
数据合规部
声明
本文版权归属于浙江省大数据联合计算中心数据合规部,解读内容仅供一般参考,不应视为针对特定事件的意见,任何依据本文全部或部分内容做出的判断或决定以及因此造成的法律后果,本单位概不负责。
如有合作意向和任何问题,请联系邮箱business@datampc.com