法治号 手机版| 站内搜索

网上有害信息举报

人工智能训练侵犯作品复制权吗?

2025-08-27 06:51:46 来源:法治日报-法治网 -标准+

□ 热点聚焦

□ 李春晖

有关人工智能(AI)训练用数据的著作权争议尚未尘埃落定。当下学术研究似以一面倒的思路占优:将著作权保护无条件适用于AI训练用数据,在此基础上寻求包括合理使用和法定许可在内的权利限制。这可称为“先进后出”路径。亦有少数观点“釜底抽薪”,从根本上质疑著作权法的可适用性。笔者拟强化“釜底抽薪”进路的论述,以平衡视听。笔者并不排除规制AI训练用数据的可能性,但须在现行著作权法之外重新进行利益衡量和价值选择。

复制权是人工智能训练用数据著作权问题的核心

著作权一般包括精神权利、复制权、传播权和演绎权。AI训练的结果是AI模型,不传播原作品,不可能侵犯传播权。诸项精神权利的被侵害也以作品的传播为前提。因此,AI训练著作权问题主要涉及准备训练数据时不可避免的物理复制以及训练时读取数据过程中的临时复制。有激进观点将机器学习过程本身,也就是对数据的分析、挖掘、学习纳入复制范畴。

另有观点认为,对训练数据的预处理还可能涉及演绎权中的翻译权、改编权、汇编权等,如转换数据的自然语言或将其转换为机器语言、对训练素材的改写、标注、解释、分类、整理、汇总等。不过,这些操作并非著作权法意义上面向读者的演绎,而是为了机器学习,本质上仍是复制的一种,或以复制为前提。笔者将其视为广义复制。

因此,在著作权法意义上,AI训练使用数据的合法性之核心是复制权。当然,著作权法还规定了应由著作权人享有的其他权利,因此将“用于AI训练”或文本数据挖掘(TDM)作为著作权的新权能的道路是畅通的。不过,若在既有权能之外求助于新权能,这仍属于“釜底抽薪”进路。

人工智能训练之技术、伦理本质与复制

AI模型之基本原理脱胎于早期的模式识别技术。神经网络技术的变化,是从发现和构建特征维度的“小农经济”方式,转变为大规模计算反映数据之全方位联系的参数。模型的构建和训练不是对数据的复制,而是对数据作出统计学上的特征表达。生成式AI是决策式AI的特定形式的应用,底层技术没有本质变化。

AI训练从另一角度来看就是机器学习。AI志在替代人的智力。但AI要进行创造活动,必须预先学习掌握创造的素材和规则,这可与自然人学习过程相类比。人类学习时的记忆过程不构成对作品的著作权法意义上的复制,AI在学习过程中将学习素材存储在可用位置类似于人类的记忆过程,同样不构成著作权法意义上的复制。但这一结论若转化为权利语言——“自然人有学习的权利,因而AI也有学习的权利”,却面临显而易见的主体资格问题。

不过,民法上未出生的胎儿(甚至某些法域下的胚胎、受精卵)具有其伦理权利,但它们尚非具有主体意识的真正自然人主体。与之类比,若AI的目标是成长为“人”,其可否享受类似胎儿在其正式“出生”之前的包括学习权利在内的伦理权利?一方面,若AI的目的是具有似人的能力,则必须提供让其获取如此能力的环境;另一方面,AI与自然人构成人机联合体,AI可视为自然人人格的延伸或其一部分,AI的学习就是人自身的学习。

训练数据准备中的复制

AI线下训练需预先准备训练数据的拷贝于存储集群中,这是否构成著作权法意义上的复制?复制权之表面文义覆盖任何形式的物理复制。然而随着技术的发展,越来越多传播行为无需以复制为前提,同时越来越多的复制与传播无关。在此过程中,著作权实践的历史发展已逐渐显明,传统著作权法中的复制权实非纯粹针对复制的权利,而是针对构成传播之前提的复制的权利。因此,AI训练用数据的预处理即使涉及物理复制,由于并无传播目的和效果而不被具有传播含义的“复制权”所覆盖。

另一视角是把训练数据准备中的复制视为临时复制。但AI训练数据的大规模性导致训练不可能短时间内完成,同时数据还需要预处理,数据复制状态的存留不一定“短暂”,因此有人认为训练数据准备中的复制为永久复制。但临时复制的更准确表达当为“中间复制”,核心不是时间,而是复制的非最终性、非目的性。训练数据准备中的复制正是如此。

数据中间商的存在令问题更复杂,有观点认为其营利性证明了训练数据准备中的复制有其独立的经济意义。但独立的经济意义并非指中间复制过程是否涉及对价,而是指公众能否接触、欣赏原作品的表达。同时,对AI开发者是否有复制和侵权行为而言,数据中间商的存在并非关键。反之,AI开发者行为的合法性反而会影响数据中间商行为的合法性,后者实为AI开发者的数据处理代工者,其所获对价不过是代工的劳动报酬。若数据中间商取得数据还有其他用途,在一些情形下可能构成不正当竞争,但就提供给多家AI开发者使用的情形而言,与一对一供应数据没有本质区别,只是AI训练过程更广泛、更精细的分工。

更宽广的视野:知识产权权能碎片化之合理性审视

版权法上相对于传播权独立存在的复制权并非孤例,在商标法、专利法领域存在类似情形。如专利产品销售、使用之前的制造行为。这是因为知识产权及其客体的特点,导致从复制/制造涉嫌侵权产品到权利人真正受损存在漫长的链条,知识产权立法将阶段性行为视为独立侵权行为,实为民事侵权理论中对侵权危险的提前排除,有其历史合理性。

但在新的技术和市场环境下,知识产权实施/使用链条各环节独立权能化已愈加表现出现实的不合理性。一是利益延伸原则不符合知识产权法定原则并导致利益失衡。知识产权保护范围随利益无限延伸会过度控制信息和技术的传播,产生固化“技术阶层”的效果。二是多环节独立权能化与民事侵权理论相龃龉。例如,在复制不再等价于传播时,继续单独规制复制行为不再符合民事侵权理论。三是多环节独立权能化导致各种弊端,包括多重许可、选择性诉讼等。因此,应回归民事侵权理论,行为规制、责任承担均须满足侵权责任构成要件。受损害的市场利益必须直接来自法定知识产权本身,而非具有复合性的知识产权客体中的非法定知识产权层面。

结论与展望:置之死地而后生

AI训练引发的热烈讨论和司法争议,凸显了革命性的技术需要革命性的制度。直截了当的办法,是直接承认旧制度(著作权法)已不适应新生产力(AI)。但这并不意味着对AI训练用数据问题撒手不管——若立法者和利益攸关方认为AI训练用数据问题需要规制,则可进行充分的利益衡量,基于价值取舍而重新立法/修法。尘埃落定之前,不妨让子弹多飞一会儿,给新技术、新业态足够的空间和时间,才更有利于科技、经济、社会、国家和人类的进步。或者解铃还须系铃人,将技术引发的问题留待持续发展的技术本身去解决,可能是更有效的治理方法。

(原文刊载于《华东政法大学学报》2025年第4期)

编辑:申旭洋