4 月 11 日,国家互联网信息办公室发布关于《生成式人工智能服务管理办法(征求意见稿)》(下称《办法》)公开征求意见的通知。本《办法》征求意见稿的出台可谓在近期大火的生成式人工智能行业中掀起轩然大波,就此飒姐团队对《办法》的具体条款进行解读。
第一条
为促进生成式人工智能健康发展和规范应用,根据《中华人民共和国网络安全法》《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》等法律、行政法规,制定本办法。
从立法路径而言,该办法是在网安法、数安法、个保法 " 三驾马车 " 的前提下提出的,因此企业应该关注生成式人工智能服务的本质。该类服务首先是一个网络应用,其次是一个 " 数据密集型 " 应用,且极其容易触碰 " 个人信息 " 的雷区,因此在合规中企业不仅仅需要关注本办法,更多的是关注监管要求的沿革路径,其相对于网安数安个保法的基础性条款有了哪些地方新的升级和新的要求。
第二条
研发、利用生成式人工智能产品,面向中华人民共和国境内公众提供服务的,适用本办法。
本办法所称生成式人工智能,是指基于算法、模型、规则生成文本、图片、声音、视频、代码等内容的技术。
本条规定了《办法》监管对象的范围。当生成式人工智能的产品不再是内部的自行使用、测试使用或是为某个领域某个企业的定向开发,而是在互联网上向公众提供公开的服务时便需要符合本法规。
何为 " 生成式人工智能 ",第二条第二款中给出了一个十分宽泛的定义,广义的 " 算法模型和规则生成文本、图片、声音的 " 可以涵盖大多数网络应用,任何人工信息的输入皆需要经过算法模型或者是一定规则的处理,最终以另一种信息的表现形式呈现在输出端,因此在实务中执法部门如何理解 " 生成 " 二字尤为重要。
第四条
提供生成式人工智能产品或服务应当遵守法律法规的要求,尊重社会公德、公序良俗,符合以下要求:
(一)利用生成式人工智能生成的内容应当体现社会主义核心价值观,不得含有颠覆国家政权、推翻社会主义制度,煽动分裂国家、破坏国家统一,宣扬恐怖主义、极端主义,宣扬民族仇恨、民族歧视,暴力、淫秽色情信息,虚假信息,以及可能扰乱经济秩序和社会秩序的内容。
(二)在算法设计、训练数据选择、模型生成和优化、提供服务等过程中,采取措施防止出现种族、民族、信仰、国别、地域、性别、年龄、职业等歧视。
(三)尊重知识产权、商业道德,不得利用算法、数据、平台等优势实施不公平竞争。
(四)利用生成式人工智能生成的内容应当真实准确,采取措施防止生成虚假信息。
(五)尊重他人合法利益,防止伤害他人身心健康,损害肖像权、名誉权和个人隐私,侵犯知识产权。禁止非法获取、披露、利用个人信息和隐私、商业秘密。
此条可谓是实质统领性的条款,关注内容、算法、数据、平台不正竞争、用户隐私等各个层面的问题。首先是以国家统一、国家安全为第一要务,重视内容监管。生成内容不能触碰违反社会主义核心价值观的底线,且谨防打着人工智能的旗号进行违法有害内容的有意输出。其次是谨防 " 算法偏见 " 现象。除了杜绝主动输出危害内容之外,也对在算法设计、数据选取等较为隐性的服务实现步骤进行规制,实现从模型到数据的全过程平等无偏见。
同时,提前为可能在算法、算力、数据等方面的垄断的企业打了 " 预防针 "。国家提倡数字时代的共享共治,在保护企业智力成果、投入成本的同时也谨防恶性竞争、市场垄断等行为的发生。
可以看出政府努力引领 " 可信 " 生成式人工智能服务的发展。对于该类服务来说 " 可信 " 是最难以达成的,黑箱模型使得很少有有效手段阻止模型输出内容的 " 胡说八道 ",即便是行业顶尖的 GPT-4 也难以避免该现象的发生。并且,核心问题指向服务生成内容可信程度的波动化,一时超常的准确表现,一时难以分辨的潜藏错误是阻碍对该类服务赋予更多信任的主要原因。因此第四条第四款中只是要求企业采取一定的措施对生成内容准确性进行维护。
第五条
第五条 利用生成式人工智能产品提供聊天和文本、图像、声音生成等服务的组织和个人(以下称 " 提供者 "),包括通过提供可编程接口等方式支持他人自行生成文本、图像、声音等,承担该产品生成内容生产者的责任;
第五条进一步明确在公众用户和产品服务提供商之间的关系,将 " 生成内容生产者 " 的责任划归到产品服务提供商(文中称为 " 提供者 ")之下。在这里有些很有趣的地方,譬如 A 公司调用 B 公司的接口向公众 C 提供服务,谁是内容提供商?若 B 公司的接口并不向公众开放,而是通过其他方式供给于 A,那么 A 才需要承担法律上内容生产者的责任;但若 B 公司也以公开的形式向 A 公司出售服务,那么 AB 两公司权利义务关系依照本办法可能还存在模糊之处。
《办法》中将将数据合法性也划归到 " 提供者 " 之下,对服务背后的数据进行统一的要求,可以看出日后提供者身份的 " 认定 " 是兵家必争之地。该条最直接的意义便是对模型输入端进行优化,从而尽可能地保证输出端内容的纯净性、准确性。从长远的来看,该要求对整个数据相关产业链提出的新的要求,是对整个行业数据收集、传输、交易、检验、维护与保护的全面规制。同时也完全符合现行立法对数据处理的各方面要求,能够极大程度防止后续违法行为的发生,属于一举多得。
第八条
生成式人工智能产品研制中采用人工标注时,提供者应当制定符合本办法要求,清晰、具体、可操作的标注规则,对标注人员进行必要培训,抽样核验标注内容的正确性。
网络中对此条款的争议很大,说很有可能促使诞生 " 打标员 " 这一新职业,人工智能行业也可以是 " 劳动密集型 " 的。事实上,标注的成本不论是过去还是现在都是相当的高的,为了标注的准确性,减少错误标注的数据污染,复杂的规则制定、培训、检验已经成为行业的基本操作,服务的开发者会自发使得标注尽量标准化来提高模型的表现。
第十条
提供者应当明确并公开其服务的适用人群、场合、用途,采取适当措施防范用户过分依赖或沉迷生成内容。
飒姐团队认为这条的设立颇具有先见之明的。在过去,网络服务提供内容导致用户沉迷的例子不在少数,而深度合成内容具有高度的拟人性和强交互性,让人难以区分,很可能会深陷其中,不愿接受现实的样子。不符合法律规定的相关服务很有可能成为新时代的 " 赛博大烟 "。
第十一条
提供者在提供服务过程中,对用户的输入信息和使用记录承担保护义务。不得非法留存能够推断出用户身份的输入信息,不得根据用户输入信息和使用情况进行画像,不得向他人提供用户输入信息。法律法规另有规定的,从其规定。
信息泄露问题在对话式内容生成服务中已经初见端倪。服务提供者为了根据用户的输入提供 " 完全个性化 " 的输出,需要将输入投喂到模型当中,很难在数据处理的过程中保证数据的 " 静止性 "。近期中国支付清算协会也发布倡议书,提示支付行业从业人员合规使用 ChatGPT 等工具,以避免行业关键数据泄露风险。
" 画像 " 是一个行业中的词,并没有规范的定义,何种行为可以被定义为 " 画像 " 也是至关重要的问题。对用户输入的整合和统计当然的可以提供更为个性化的服务,微软近期的服务甚至可以将本地文件内容整合其中,但是这种行为在本条中似乎被排除。之后行业如何在不 " 画像 " 的情形下提供更为智能的服务是整个行业需要思考的问题。
第十三条
提供者应当建立用户投诉接收处理机制,及时处置个人关于更正、删除、屏蔽其个人信息的请求;发现、知悉生成的文本、图片、声音、视频等侵害他人肖像权、名誉权、个人隐私、商业秘密,或者不符合本办法要求时,应当采取措施,停止生成,防止危害持续。
第十五条
对于运行中发现、用户举报的不符合本办法要求的生成内容,除采取内容过滤等措施外,应在 3 个月内通过模型优化训练等方式防止再次生成。
第十九条
提供者发现用户利用生成式人工智能产品过程中违反法律法规,违背商业道德、社会公德行为时,包括从事网络炒作、恶意发帖跟评、制造垃圾邮件、编写恶意软件,实施不正当的商业营销等,应当暂停或者终止服务。
对于生成式人工智能的 " 非法输出 ",政府可以说是有预见的,并不是一刀切的禁止,而是给企业留有相当的余地。一方面提供者需要建立用户投诉接收处理机制,另一方面需要主动进行内容核查,发现违法内容及时采取措施,停止服务,防止危害持续生成,并在限定时间内优化模型。这对提供商整个模型反馈更新机制提出了很高的要求。
写在最后
目前《办法》还处在征求意见阶段,未来一定会收纳各方意见进行调整。《办法》的出台对于整个行业的发展是引导、也是压力。各个开发者需要在数据维护、模型设计、模型输出、用户交互等全流程进行新的服务设计和改进。目前世界范围内对生成式人工智能技术的重视不单单仅是重视技术本身,更体现了对该技术背后蕴藏的解放和发展当前其他领域生产力潜力的关注。《办法》的出台显示出我国对于生成式人工智能技术发展的关注与支持,为相关科研机构、企业的发展纳入到合规、安全的框架之中,这对于构建本土化 AIGC 研发环境极其有利。
未央网专栏作者 :肖飒
相关推荐