美国AI训练三案透视:天平正在向“合理使用”倾斜?
2025年,美国联邦法院先后就三起涉及大型语言模型(LLM)训练与版权冲突的案件作出关键判决:Thomson Reuters v. Ross Intelligence、Bartz v. Anthropic、Kadrey v. Meta。三案虽被归为同类争议(AI是否“合理使用”版权内容),但法院的判断路径与结论却呈现出显著差异。这不仅凸显“合理使用”在AI背景下的新挑战,也提供了美国司法对生成式模型使用版权文本态度的清晰信号。
本文以立足于判决书原文,试图梳理三案异同,并归纳出当前“合理使用”判断的共性逻辑,为接下来国内法院可能的类似争议提供借鉴思路。
一、案件背景与裁判结果概览
1. Thomson Reuters v. Ross Intelligence
Ross是一家法律科技公司,试图用AI构建替代Westlaw的法律检索工具。法院认定Ross在训练过程中,系统性复制了2,243条Westlaw的“头注”(headnotes)和Key Number摘要——这些内容均由专业编辑人工撰写,具备充分创作性,构成受保护表达。
法院适用《美国版权法》第107条四因子分析后判定:
第一因子(使用目的):AI用途与Westlaw完全重叠,缺乏转化性;
第四因子(市场影响):AI产品直接构成Westlaw的市场替代;
结论:不构成合理使用,Ross构成版权侵权。
2. Bartz v. Anthropic(N.D. Cal. June 2025)
该案由多名作家联合提起,指控Anthropic使用其作品训练Claude模型。关键在于训练数据的来源被区分为两类:一类为Anthropic合法购买的纸质图书,扫描后用于模型训练;另一类来自Z-Library等“影子图书馆”的盗版电子书。
法官Alsup裁定:
Anthropic’s use of the books at issue to train LLMs for the purpose of returning new text outputs is “spectacularly” transformative and therefore a fair use,
Anthropic’s digitization of books it purchased in print form for use as part of its central library was a fair use because the digital copies were a replacement of the print copies it discarded after digitization, and
Anthropic’s use of “pirated” copies of books in its central library was infringing. The order came on Anthropic’s early motion for summary judgment on the question of fair use regarding certain of Anthropic’s uses of the books at issue. Numerous other issues remain for trial and are not discussed in this alert.
因此:
合法来源部分 → 构成合理使用;
盗版来源部分 → 不构成合理使用。
3. Kadrey v. Meta Platforms, Inc.(N.D. Cal. June 2025)
原告为多名畅销作家,控告Meta在训练LLaMA模型时使用其作品,主要来源为Books3(存在较多盗版书籍内容的电子书站点)数据集。
不同于Anthropic案,法官Vince Chhabria直接支持Meta的合理使用抗辩,尽管Meta并未提供其训练语料完整列表,法院仍认为:
AI训练具有高度转化性;
原告未能证明市场替代性;
结论:构成合理使用,驳回主要侵权指控。
三案异同比较
判定逻辑差异背后的关键:
Ross案侧重功能替代:法院强调AI系统本质上是在“再造Westlaw”,因此“使用目的”与“市场影响”均对其极为不利。
Anthropic案引入“来源合法性”维度:这是首个明确将训练数据的获取方式纳入“合理使用”判断的案例,对合法和非法来源分开裁判。
Meta案则完全回归“使用行为本身”:即便数据来源不清,若最终用途具备明显转化性、未重现原作表达,法院也可能判定合理使用。
三、法院认定合理使用的共性逻辑
透过这三起判决,我们可以归纳出以下几个共同适用的判断逻辑:
1. “转化性”是第一性标准
若AI训练仅复制表达、再造原有功能(如Ross案),极易被法院认定为“非转化性”;而用于训练生成式语言模型,目的与原作差异显著,构成“高度转化”(见Anthropic与Meta案)。
2. “市场替代性”须举证成立
原告若无法证明AI模型输出内容可替代原作使用场景,其第四因子将直接倾向被告(Meta案尤为典型);Ross案因AI系统功能与Westlaw重叠,损害原市场直接成立。
3. “数据来源合法性”会影响合理使用抗辩的成立路径
这是Anthropic案带来的创新视角:即使行为本身具备转化性,若数据来源严重非法、集中存储未具转化功能,法院可能拒绝给予合理使用豁免,也就是说“盗版原罪”难以通过引用“合理使用”洗白。
4. “复制数量”本身并非否定性因素
法院一致认为,为训练AI模型而复制整部图书是“技术必需”,关键不在“是否复制”,而在“是否转化”与“是否替代”,所以部分版权方试图借助“复制权”来阻止模型训练者使用其作品恐怕很难行得通,国内法院大概率也会认为复制行为是一种“临时复制”,并非著作权法意义上的复制,要被训练行为所吸收。
四、结语:天平正在向“合理使用”倾斜
三案共同表明,美国法院虽然并未完全“宽容”AI训练使用版权材料,而是发展出一套更具细化特征的判定体系——既强调“使用行为的转化性”,也保留对“市场损害”与“非法数据获取”的高度关注,但整体上的天平似乎在向着“合理使用”倾斜。这也许跟整体AI技术潮流对语料的迫切渴求有关,没有哪个法院愿意承受来自“阻碍技术发展”的压力,最多只能是不让AI学成之后断了“师父”的生路罢了。
