以 ChatGPT 为代表的生成式 AI 横空出世,层出不穷的新鲜应用充斥在大众视野里。AI 孙燕姿的歌声刚落下,AI 已经把高考作文从 0 分写到高分,紧接着妙鸭相机的 AI 拍照小程序就火爆全网。这些 AI 应用激起了一系列担忧:AI 在未来是否会让自己下岗,AI 的创作是不是在抄袭……而更危险的犯罪事件已经出现,有人利用智能换脸和拟声技术,假扮他人好友骗钱。
(资料图)
面对生成式 AI 带来的机遇和挑战,各国对如何监管 AI 有不同的意见。中国、美国、欧盟等国家或地区迅速做出反应,而新加坡、印度则宣称,暂时不打算监管 AI。
8 月 15 日,中国的《生成式人工智能服务管理暂行办法》(下称“办法”)正式施行,这被认为是全球首部生成式 AI 立法。澎湃新闻对比了五个主要国家或地区最新推出的 AI 管理规范,发现多数文件不只是针对生成式 AI,而是涵盖更大范围的 AI;这些 AI 文件的力度和侧重点有明显不同,如欧盟对伦理和能源较为重视,中国更强调提供者的责任等。
AI 诈骗事件渐起
为何要监管生成式 AI,或者说更大范畴里的 AI?
如果对比 AI 与人类的能力,我们会发现 AI 已经在逐渐超越人类。一篇研究自然语言基准评估的论文预印本显示,十年前,还没有 AI 能拥有等同于人类水平的语言或图像识别能力,但到了 2020 年,AI 的能力已经能在所有领域的测试中击败人类。
而生成式 AI 的能力,在不法分子的使用下,将更具有强大的破坏力。据中国公安部,2020 年以来就破获 79 起“AI 换脸”的犯罪案件。
今年 5 月,受害者郭先生接到了“好友”的微信视频电话,对方称外地投标需要 430 万元。郭先生在视频中确认好友面孔和声音后,放松了戒备,最终上当受骗。
在美国,还发生了一场虚拟绑架骗局。受害者接到一通匿名电话,电话中传来其女儿的哭泣尖叫声。一名男子威胁受害者寄给自己 100 万美金。
“这显然是她的声音。”受害者在接受外媒采访时表示,哭声与抽泣让她被这场骗局动摇了,因为自己女儿平时内向、克制,不是一个爱哭、爱尖叫的人。她不知道对方是怎样得到了这段声音。
“生成式 AI 具有价值观属性,一旦生成式 AI 模型在训练过程中引入偏见歧视等有害信息,在模型实际应用中很可能呈现放大化输出。另外,生成式 AI 具备可引导性,在与人类‘对齐’的训练环节中不断趋近人类偏好,但同时也存在被不法分子恶意利用的风险。”西南政法大学人工智能法学院副院长、教授冯子轩告诉澎湃新闻。
欧盟的 AI 法案涉及面最广,提出环保要求
AI 的挑战已然来临,部分国家或地区开始作出反应。
目前只有中国正式通过了专门针对生成式 AI 的立法,其他国家或地区多是针对广义 AI 的相关规范——其中多数是指导性文件。欧盟已经通过《AI 法案》的草案,但距离正式生效还有数年;美国发布了 AI 风险管理框架,后续成立了生成式 AI 治理小组;英国发布《AI 监管:一个支持创新的方式》,并征求公众意见。
澎湃新闻梳理和对比了五个国家或地区最新推出的 AI 管理规范,以此观察各国的监管方向和策略。我们发现,中国和欧盟的管理规范较严格,涉及维度更广,比如中国对数据标注有明确要求:“在生成式人工智能技术研发过程中进行数据标注的,提供者应当制定符合本办法要求的清晰、具体、可操作的标注规则”。
欧盟还有针对 AI 能耗环保问题的条例,如“利用适用的标准来降低能源使用、资源使用和浪费,以增加能源效率和系统整体效率”。
今年六月,欧盟正式批准通过《AI 法案》草案,尽管该法案尚未正式生效,但其提出的治理方式也为其他国家或地区提供了参考,比如欧盟提出了分类分级管理,将 AI 系统分为不可接受的风险、高风险、有限风险和极低风险等四种风险类型,针对不同的风险系统会有不同的监管措施。
不过,这些细则的落地仍有待进一步的探讨。“虽然欧盟《AI 法案》提出的分类分级管理在一定程度上可供参考,但是生成式 AI 服务的分类按什么维度去分类?分级要分成几级?相关的细则、标准仍然需要进一步通过实践来制定。”上海数据交易所研究员林梓瀚告诉澎湃新闻。
目前,欧盟严格的 AI 管理规范还遭到企业的抗议。据法新社报道,超 150 个企业发出警告,认为欧盟的《AI 法案》可能会损害欧洲的竞争力。
相比之下,美国、英国、韩国的管理较为宽松,韩国在 12 个细分维度里只涉及了 4 个,更多是抱持着让 AI 行业自由发展的态度。西雅图华盛顿大学技术政策实验室的创始联合主任瑞安·卡洛(Ryan Calo)认为美国的全国性 AI 管理文件只是“表面上的行动,但没有任何实质性和约束力”。
此外,由于这些规范多是针对广义的 AI,因此暂时较少涉及生成式 AI 争议较多的两个方面——AI 版权和 AI 生成标识。起初,欧盟的《AI 法案》几乎没有提到聊天机器人,仅要求对其进行标记,以便用户知道他们正在与机器进行交互,后续在修订中又补充了要求彻底记录任何用于训练 AI 的版权材料,以方便内容创作者决定是否追求赔偿。
“传统算法应用的处理模式与应用场景相对固定,有较为明确的服务边界,但生成式 AI 应用场景更为丰富,如 ChatGPT 产品几乎可以处理自然语言领域的所有任务,如果延续针对固定用途信息服务的管理思路,将难以充分切合实际监管需求。”冯子轩说,她认为《办法》契合新技术新特性,有针对性地进行制度设计。
规制还是发展 AI?不同国家的选择不同
具体到《办法》的细则,中国在生成式 AI 监管方面有自己的特色设定,比如强调内容治理方面的制度建设和积极引导、强调生成式 AI 提供者的责任。
“对生成式 AI 服务提供者要求依法承担网络信息内容生产者责任,这是一个比较创新的界定,也会对实践造成一些挑战和争议,核心命题在于 AI 生成的内容,和以往人工控制的过程,会呈现一些新的不一定完全可以控制的特点,对于这点的内容治理要求,是否应该提供更多的容错、纠错空间,是值得后续进一步探索和研究的问题。”中国社会科学院大学互联网法治研究中心执行主任刘晓春告诉澎湃新闻。
除了对内容治理的要求,保障训练数据的合法性和质量问题也是一个难点。林梓瀚认为,场外数据交易的来源合法性难以保障,公共数据以及企业系统生成的数据质量也存在瑕疵,相关的司法案件频发,一定程度上加剧了企业的合规风险。
企业如何按照《办法》要求来保障训练数据质量和用户隐私?拥有自研语言大模型“大象 GPT”的印象笔记告诉澎湃新闻,“大象 GPT”训练的数据除了来自公共数据集之外,还包含来自印象笔记的自有公开数据集,即用户主动授权的公开收藏内容及主动发布的内容。这些数据还会经过进一步的“清洗” 和“增强”,与公共数据集相比,保证了数据的多样化和高质量, 与知识管理领域更深度相关,因此也更有助于专有模型的训练和优化。
“为了保护用户的隐私,除了用户必要的授权之外,我们还会对数据进行脱敏处理,利用模型识别可能存在的任何个人可识别信息(PII, Personally Identifiable Information) 并加以去除或替换,确保数据中不包含任何可以识别个人身份的信息。”印象笔记说。
尽管包括中国在内的部分国家或地区在规制生成式 AI 的路上前进,但还有另一部分国家表示暂时不想监管 AI。
“我们目前没有考虑监管人工智能。在这个阶段,很明显我们希望能够向行业学习。在我们决定是否需要从监管方面做更多工作之前,要先了解人工智能的使用方式。”新加坡信息通信媒体发展局(IMDA)可信人工智能和数据主管李婉诗(Lee Wan Sie)接受 CNBC 采访时说。
印度持有类似观点。印度信息技术部部长阿什温尼·瓦什纳(Ashwini Vaishnaw)在今年 4 月时称,政府目前并未考虑出台任何法律来规范 AI 在印度的发展。
如此不同的 AI 治理理念,与当地的人口结构、产业结构和社会规范等都有关系。清华大学公共管理学院教授、院长朱旭峰在其《人工智能治理的全球版图》演讲中提出,日本积极发展 AI 的战略考虑之一就是,AI 可以通过替代自动化岗位、提供适老服务等来较好地缓解老龄化挑战,而印度的限制性法律历经反复修改,仍在撤回与修订中,这与大型科技公司的游说影响密不可分。