训练数据版权合理使用AIGC

美国首例AI训练侵权案:“合理使用”抗辩底层逻辑

美国首例AI训练侵权案:“合理使用”抗辩底层逻辑

张延来律师
2025年2月23日约 5 分钟阅读7 次阅读

美国首例AI训练侵权案:“合理使用”抗辩底层逻辑

一、考量要素与权重排序

备受瞩目的汤森路透诉RossIntelligence案近日有了结果,这应该是美国首例AI训练侵害版权判决(并非生成式AI),美国特拉华州地方法院法官斯特法诺斯·比巴斯(Stephanos Bibas)对于全球关注的AI训练语料在版权法意义上合理使用抗辩的问题进行了详细阐述,明确了他认为最为重要的四个要素,而且对这四个要素的权重进行了排序,最终驳回了被告关于合理使用的抗辩主张,形成了极具示范意义的司法判例。

法官梳理出的四个关键考量因素以及对应的权重分别是:

1. 市场影响(核心权重)

法官认为,AI训练是否实质性损害原作品市场价值是首要考量。本案中,RossIntelligencet通过AI生成法律分析内容与Westlaw形成直接竞争,指出“开发市场替代品的行为不构成使用合理”,这一判断直接导致被告败诉。

从这个判决逻辑延伸出去,我们可以自然联想到若AI生成内容可降低用户对原作品的订阅需求(如美国各大新闻机构诉OpenAI ChatGPT案),则大概率突破合理使用边界。

2. 目的性质与使用(次优权重)

尽管被告主张AI训练具有“技术研发”的转化性(如学术研究或公共知识创造),但法院认为其商业性替代目的压倒技术创新属性。法官强调:“合理使用的转化性需体现公共利益增值,而非单纯商业利益攫取”。

3. 实质性使用数量(辅助权重)

法官指出,即便AI模型未逐字复制,但抓取Westlaw数据库中的“核心法律分析框架”(如判例摘要结构、法律术语关联性)已构成对作品实质部分的利用。

4. 作品性质(弱关联权重)

本案涉及Westlaw编辑的法律数据库,法官承认其具有“事实汇编”特性,版权保护强度低于小说、音乐等创作性内容。但这一要素在本案中未显著影响判决,显示司法实践更倾向动态平衡市场与技术创新秩序,而非机械适用作品分类。

二、反哺合规

从合规角度,基于上述判决的权重排序(“市场影响>使用目的>使用数量>作品性质”),企业在AI训练过程中使用版权性语料,如果希望主张合理使用来规避风险,同样需要根据排序评估这四个方面是否可以达成。

但我们换个角度看,从经济学角度,前三个最重要的影响因素还可以归类成两大类,分别是:消极因素和积极因素,前者是引用合理使用抗辩带来的损害性影响,后者是可以增进社会整体福利的积极性影响,从这个视角出发开展合规工作似乎可以获得更加清晰的思路:

1. 市场隔离机制 (消极效果)

训练数据使用不得导致生成内容与原作品形成竞品关系。例如音乐AI模型应规避生成与版权歌曲高度相似的旋律,新闻类模型需限制事实性报道的细节还原度等。

本质上,市场隔离的目的在于从经济学上尽量降低对版权方的损害,毕竟使用其版权资源但借助合理使用抗辩不付费的情况下,是对资源的一种无对价消耗,应当尽量将这种消耗性的影响降到最低。

2. 数据价值阈值控制 (消极效果)

仍然是从降低对权利人消极影响的角度,AI训练者应考虑对高价值语料内容(如法律判例分析、深度报道等)“片段化+处理特征脱敏”,仅使用必要数据量,避免全量抓取高价值版权内容,避免提取核心知识架构,例如避免提取判决要点分析,仅使用判决书中的案由、各方主张等非创造性元素。

3. 目的正当性证明 (积极效果)

企业需提供证据链证明数据使用的公共利益属性或技术创新,如医疗AI公开训练数据的疾病覆盖率、模型输出的诊断辅助性(非替代医生决策)等。

从立法或司法的顶层设计思路来看,允许合理使用抗辩对于AI产业而言必须有足够的社会积极效果,要么是对社会公益有利,要么是可以很大程度上促进科技创新,理论上,只有这两方面的积极效果远大于消极效果时,合理使用抗辩才有成立的必要,这是我们在评估合理使用抗辩能否最终获得支持的问题上的一个终极判断标准,应该在合规或诉讼中将这个比较结果尽可能量化,量化程度越高,结论越明确。

小结

AI训练与版权保护的冲突本质上是版权权益再分配问题,从美国的这一判例不难发现,AI公司需将版权合规成本纳入模型训练预算,试图简单诉诸“合理使用”抗辩恐怕很难一劳永逸地解决问题。

但如果希望从这个角度降低合规风险,则应该具备“法律+经济学”的双重视角,将判例中的考察要素尽可能作出量化分析和妥善安排,这考验着法律人的创造性智慧。

分享文章
阿来律师 AI分身
AI 分身