锐评声音

AI聊天热度“狂飙”“合规刹车”不容忽视

■ 算法治理

ChatGPT需要将语料库中的内容复制到自己的数据库中,相应的行为通常在自然语言处理领域被称之为“文本数据挖掘”。当相应的文本数据可能构成作品的情况下,文本数据挖掘行为是否侵犯复制权当前仍存在争议。

□ 肖飒

AI聊天机器人风头正劲。

近日,微软将向OpenAI投资数十亿美元,并将推进AI聊天机器人ChatGPT商业化,将其整合进Bing搜索引擎等一系列产品中;谷歌计划推出新一代对话AI机器人Bard;百度宣布正在研发的生成式对话产品文心一言项目,计划在3月完成内测,随后对公众开放……

ChatGPT等基于自然语言处理技术的聊天AI,接受过大量文本数据的训练,能够对各种各样的输入生成类似人类的反应。不过,聊天AI可能存在因算力资源有限和算法限制造成的瓶颈,短期来看仍需要解决数据安全、知识产权等法律合规问题。

“科林格里奇窘境”

和许多新兴技术一样,ChatGPT所代表的自然语言处理技术同样面临着“科林格里奇窘境”。这一窘境包含了信息困境与控制困境。所谓信息困境,即一项新兴技术所带来的社会后果不能在该技术的早期被预料到;所谓控制困境,即当一项新兴技术所带来的不利的社会后果被发现时,技术却往往已经成为整个社会和经济结构的一部分,致使不利的社会后果无法被有效控制。

目前在人工智能领域,尤其是在快速发展的自然语言处理技术领域,相关技术很可能会陷入所谓的“科林格里奇窘境”,与此相对应的法律监管似乎并未“跟得上步伐”。我国目前尚无国家层面上的人工智能产业立法,但地方已经有相关的立法尝试。就在去年9月,深圳市公布了全国首部人工智能产业专项立法《深圳经济特区人工智能产业促进条例》,紧接着上海也通过了《上海市促进人工智能产业发展条例》,相信不久之后各地均会出台类似的人工智能产业立法。

在人工智能的伦理规制方面,国家新一代人工智能治理专业委员会亦在2021年发布了《新一代人工智能伦理规范》,提出将伦理道德融入人工智能研发和应用的全生命周期。

虚假信息法律风险

当我们将目光由宏观转向微观,抛开人工智能产业的整体监管图景和人工智能伦理规制问题,ChatGPT等AI聊天基础存在的现实合规问题也急需重视。其中较为棘手的是ChatGPT回复的虚假信息问题。

ChatGPT的工作原理导致其回复可能完全是“一本正经的胡说八道”,这种看似真实、实则离谱的虚假信息具有极大的误导性。当然,像对“大连有哪些旅游胜地”这类问题的虚假回复可能不会造成严重后果,但倘若ChatGPT应用到搜索引擎、客诉系统等领域,其回复的虚假信息可能造成极为严重的法律风险。

实际上这样的法律风险已经出现,2022年11月几乎与ChatGPT同一时间上线的Meta服务科研领域的语言模型Galactica就因为真假答案混杂的问题,测试仅3天就被用户投诉下线。在技术原理无法短时间突破的前提下,倘若将ChatGPT及类似的语言模型应用到搜索引擎、客诉系统等领域,就必须对其进行合规性改造。

当检测到用户可能询问专业性问题时,科技公司应当引导用户咨询相应的专业人员,而非在人工智能处寻找答案,同时应当显著提醒用户聊天AI返回的问题真实性可能需要进一步验证,以最大程度降低相应的合规风险。

知识产权合规问题

除了AI回复信息的真实性问题,聊天AI尤其是像ChatGPT这样的大型语言模型的知识产权问题亦应该引起合规人员的注意。

首先的合规难题是“文本数据挖掘”是否需要相应的知识产权授权问题。ChatGPT的工作原理是依靠巨量的自然语言本文(或言语料库),对语料库中的数据进行挖掘和训练。ChatGPT需要将语料库中的内容复制到自己的数据库中,相应的行为通常在自然语言处理领域被称之为“文本数据挖掘”。当相应的文本数据可能构成作品的情况下,文本数据挖掘行为是否侵犯复制权当前仍存在争议。

在比较法领域,日本和欧盟在其著作权立法中均对合理使用的范围进行了扩大,将AI中的“文本数据挖掘”增列为一项新的合理使用的情形。虽然2020年我国著作权法修法过程中有学者主张将我国的合理使用制度由“封闭式”转向“开放式”,但这一主张最后并未被采纳。目前我国著作权法依旧保持了合理使用制度的封闭式规定,仅著作权法第二十四条规定的十三种情形可以被认定为合理使用,换言之,目前我国著作权法并未将AI中的“文本数据挖掘”纳入到合理适用的范围内,文本数据挖掘在我国依然需要相应的知识产权授权。

其次的合规难题是ChatGPT产生的答复是否具有独创性?对于AI生成的作品是否具有独创性的问题,其判定标准不应当与现有的判定标准有所区别,换言之,无论某一答复是AI完成的还是人类完成的,其都应当根据现有的独创性标准进行判定。其实这个问题背后是另一个更具有争议性的问题,如果AI生成的答复具有独创性,那么著作权人可以是AI吗?显然,在包括我国在内的大部分国家的知识产权法律下,作品的作者仅有可能是自然人,AI无法成为作品的作者。

最后,ChatGPT倘若在自己的回复中拼接了第三方作品,其知识产权问题应当如何处理?笔者认为,如果ChatGPT的答复中拼接了语料库中拥有著作权的作品(虽然依据ChatGPT的工作原理,这种情况出现的概率较小),那么按照中国现行的著作权法,除非构成合理使用,否则非必须获得著作权人的授权后才可以复制。

编辑:张怡时