AI聊天热度“狂飙”“合规刹车”不容忽视_

AI聊天热度“狂飙”“合规刹车”不容忽视

2023-02-14 10:07:59 来源：法治日报

■ 算法治理

ChatGPT需要将语料库中的内容复制到自己的数据库中，相应的行为通常在自然语言处理领域被称之为“文本数据挖掘”。当相应的文本数据可能构成作品的情况下，文本数据挖掘行为是否侵犯复制权当前仍存在争议。

□ 肖飒

AI聊天机器人风头正劲。

近日，微软将向OpenAI投资数十亿美元，并将推进AI聊天机器人ChatGPT商业化，将其整合进Bing搜索引擎等一系列产品中；谷歌计划推出新一代对话AI机器人Bard；百度宣布正在研发的生成式对话产品文心一言项目，计划在3月完成内测，随后对公众开放……

ChatGPT等基于自然语言处理技术的聊天AI，接受过大量文本数据的训练，能够对各种各样的输入生成类似人类的反应。不过，聊天AI可能存在因算力资源有限和算法限制造成的瓶颈，短期来看仍需要解决数据安全、知识产权等法律合规问题。

“科林格里奇窘境”

和许多新兴技术一样，ChatGPT所代表的自然语言处理技术同样面临着“科林格里奇窘境”。这一窘境包含了信息困境与控制困境。所谓信息困境，即一项新兴技术所带来的社会后果不能在该技术的早期被预料到；所谓控制困境，即当一项新兴技术所带来的不利的社会后果被发现时，技术却往往已经成为整个社会和经济结构的一部分，致使不利的社会后果无法被有效控制。

目前在人工智能领域，尤其是在快速发展的自然语言处理技术领域，相关技术很可能会陷入所谓的“科林格里奇窘境”，与此相对应的法律监管似乎并未“跟得上步伐”。我国目前尚无国家层面上的人工智能产业立法，但地方已经有相关的立法尝试。就在去年9月，深圳市公布了全国首部人工智能产业专项立法《深圳经济特区人工智能产业促进条例》，紧接着上海也通过了《上海市促进人工智能产业发展条例》，相信不久之后各地均会出台类似的人工智能产业立法。

在人工智能的伦理规制方面，国家新一代人工智能治理专业委员会亦在2021年发布了《新一代人工智能伦理规范》，提出将伦理道德融入人工智能研发和应用的全生命周期。

虚假信息法律风险

当我们将目光由宏观转向微观，抛开人工智能产业的整体监管图景和人工智能伦理规制问题，ChatGPT等AI聊天基础存在的现实合规问题也急需重视。其中较为棘手的是ChatGPT回复的虚假信息问题。

ChatGPT的工作原理导致其回复可能完全是“一本正经的胡说八道”，这种看似真实、实则离谱的虚假信息具有极大的误导性。当然，像对“大连有哪些旅游胜地”这类问题的虚假回复可能不会造成严重后果，但倘若ChatGPT应用到搜索引擎、客诉系统等领域，其回复的虚假信息可能造成极为严重的法律风险。

实际上这样的法律风险已经出现，2022年11月几乎与ChatGPT同一时间上线的Meta服务科研领域的语言模型Galactica就因为真假答案混杂的问题，测试仅3天就被用户投诉下线。在技术原理无法短时间突破的前提下，倘若将ChatGPT及类似的语言模型应用到搜索引擎、客诉系统等领域，就必须对其进行合规性改造。

当检测到用户可能询问专业性问题时，科技公司应当引导用户咨询相应的专业人员，而非在人工智能处寻找答案，同时应当显著提醒用户聊天AI返回的问题真实性可能需要进一步验证，以最大程度降低相应的合规风险。

知识产权合规问题

除了AI回复信息的真实性问题，聊天AI尤其是像ChatGPT这样的大型语言模型的知识产权问题亦应该引起合规人员的注意。

首先的合规难题是“文本数据挖掘”是否需要相应的知识产权授权问题。ChatGPT的工作原理是依靠巨量的自然语言本文（或言语料库），对语料库中的数据进行挖掘和训练。ChatGPT需要将语料库中的内容复制到自己的数据库中，相应的行为通常在自然语言处理领域被称之为“文本数据挖掘”。当相应的文本数据可能构成作品的情况下，文本数据挖掘行为是否侵犯复制权当前仍存在争议。

在比较法领域，日本和欧盟在其著作权立法中均对合理使用的范围进行了扩大，将AI中的“文本数据挖掘”增列为一项新的合理使用的情形。虽然2020年我国著作权法修法过程中有学者主张将我国的合理使用制度由“封闭式”转向“开放式”，但这一主张最后并未被采纳。目前我国著作权法依旧保持了合理使用制度的封闭式规定，仅著作权法第二十四条规定的十三种情形可以被认定为合理使用，换言之，目前我国著作权法并未将AI中的“文本数据挖掘”纳入到合理适用的范围内，文本数据挖掘在我国依然需要相应的知识产权授权。

其次的合规难题是ChatGPT产生的答复是否具有独创性？对于AI生成的作品是否具有独创性的问题，其判定标准不应当与现有的判定标准有所区别，换言之，无论某一答复是AI完成的还是人类完成的，其都应当根据现有的独创性标准进行判定。其实这个问题背后是另一个更具有争议性的问题，如果AI生成的答复具有独创性，那么著作权人可以是AI吗？显然，在包括我国在内的大部分国家的知识产权法律下，作品的作者仅有可能是自然人，AI无法成为作品的作者。

最后，ChatGPT倘若在自己的回复中拼接了第三方作品，其知识产权问题应当如何处理？笔者认为，如果ChatGPT的答复中拼接了语料库中拥有著作权的作品（虽然依据ChatGPT的工作原理，这种情况出现的概率较小），那么按照中国现行的著作权法，除非构成合理使用，否则非必须获得著作权人的授权后才可以复制。

编辑：张怡时

锐评声音