Logo

全球AI诉讼风向标

Global AI Litigation Compass

训练数据版权合理使用AIGC

间接市场替代:大模型训练合理使用新问题

生成式人工智能的出现,使“版权素材能否用于大模型训练”成为法律与产业的核心争议之一。无论是美国正在审理的 Andersen v. Stability AI、New York Times v. OpenAI,还是英国、欧盟范围内的类似讨论,焦点都在于:当大模型在训练中使用了大规模版权作品时,这是否属于合理使用(fair use)?

张延来律师
2025年9月17日约 10 分钟阅读

间接市场替代:大模型训练合理使用新问题

生成式人工智能的出现,使“版权素材能否用于大模型训练”成为法律与产业的核心争议之一。无论是美国正在审理的 Andersen v. Stability AI、New York Times v. OpenAI,还是英国、欧盟范围内的类似讨论,焦点都在于:当大模型在训练中使用了大规模版权作品时,这是否属于合理使用(fair use)?

法院在初步判决和意见中普遍强调“市场替代”(market substitution)的重要性。换言之,如果AI的产出直接替代了原作品在市场上的功能和价值,那么合理使用的抗辩就难以成立。

然而,争议并不止于直接替代。一个更具挑战性的问题是:即便AI本身的训练过程并未导致市场上出现与原作“一一对应”的替代,但通过开放模型接口、为第三方提供服务等,AI可能间接稀释版权作品的市场需求,或者逐渐成为与人类创作者并行的竞争者。因此,这种“间接市场替代”是否也应纳入合理使用判断的考量?如果是,版权方与技术方如何寻求平衡呢?

一、“可转化性”不再重要?

美国《版权法》第107条规定了合理使用的四个因素:

使用的目的和性质;

受保护作品的性质;

所用作品在整体中所占的数量和实质性;

使用对潜在市场或作品价值的影响。

在美国的“合理使用”分析里,转化性(transformative use) 是一个关键考量点。如果使用只是单纯复制(比如 A 书的翻印本),那几乎肯定不是合理使用,如果使用把原作品变成了一个新的东西,有新的目的、新的意义或表达,那就可能被认定是合理使用。

但在大模型的场景里,模型会把成千上万的文字、图片“喂”进去,建立统计关系(词的共现概率、画面的组合模式)。这一步需要先复制原作品,才能让算法学到规律。训练完成后,模型不会逐字逐句保留原作品,而是形成一种“概率空间”或“参数分布”。生成的内容通常是新的组合,不是原作品的直接再现。

所以,争议就在于,训练行为本身是不是有“新的目的和意义”?

支持的观点认为训练不是为了取代原作品,而是为了“学习语言或图像的规律”,这种目的和原作品的“表达”不同,所以算是转化性的;反对者认为训练只是“规模化复制”,并没有产生直接的新作品或新表达,而是在借用原作品的全部内容来提炼规律,这种使用方式和原作品的市场功能高度相关,不够“转化”。

为什么会出现这种分歧?因为“转化性”的判断历来都带有很强的价值取向,在 Google Books 案(扫描书籍供搜索、展示片段),法院认为这是高度转化性,因为目的完全不同:原作品是用来读的,Google 是用来“检索”的。

但在大模型训练里,版权方会说:原作品是用来“表达思想/创作”的,大模型训练后也能“创作”,所以目的并没有真正改变,只是换了实现方式。

从技术角度,大模型确实没有把作品逐字逐句记住,而是抽取成了“参数化的知识”——这是一种统计层面的“转化”。但从法律角度,法院要看的不只是技术,而是“这种使用是否给了作品新的意义或社会价值”,换句话说,技术上的转化 ≠ 法律上的转化,技术上,训练让作品变成了概率分布,但法律上法院要判断:这是否是“不同的目的、不同的市场角色”,以及是否对原作品市场造成冲击。

二、“市场替代”才是关键

可见“可转化性”作为认定标准,在大模型训练的场景下存在很大争议,越来越多的司法实践显示,第四因素——即“市场替代效应”——往往起到决定性作用。

例如,在 Authors Guild v. Google(Google Books案)中,法院认为谷歌对书籍的扫描和索引并未直接替代书籍的市场功能,反而提升了检索和可读性,因此判定合理使用成立。而在近期关于生成式AI的初步意见中,法官往往紧盯一个问题:AI的输出是否可能被消费者视为原作品的替代品? 如果答案是肯定的,合理使用就会摇摇欲坠。例如Thomson Reuters v. Ross Intelligence 一案中,Ross Intelligence 提供的是一种法律研究工具,其系统并不生成原创内容,而是在用户提问时检索并展示司法意见。这虽然不是生成式AI,但其合理使用争议集中在“是否抢夺原平台(Westlaw)功能和市场”。

法官指出 Ross 的工具是“意图与 Westlaw 竞争,作为市场替代品”(“meant to compete with Westlaw by developing a market substitute”),即使中间步骤中使用数据进行处理,但关键在于最终产品的功能与价值是否取代了原作品的平台。所以法院认为,Ross 的使用损害了原作品的市场价值,因此拒绝适用合理使用抗辩。

由此可见,法院的基本逻辑是:版权保护的核心目的在于激励创作,而这种激励的经济基础是作者的市场回报。如果新技术的使用方式直接夺走了这一市场,合理使用就难以成立。

三、新问题:间接市场替代的复杂性

市场替代看似有足够充分的理由和价值,但仍然存在一个衍生问题,即生成式AI的市场影响并非总是直观的“复制—替代”。更多情况下,它体现为一种渐进的、结构性的“间接替代”或“市场稀释”。这主要表现为以下几类情形:

1. 平台开放后的外溢效应

大模型往往通过API、插件等方式向第三方开放。当无数开发者利用同一模型生成内容时,原作品的市场需求可能被整体削弱。例如,一家图片公司可能发现,尽管AI并未一对一复制其作品,但市场客户不再需要订购图库服务,而是直接调用AI生成“风格相似”的作品。

2. 技术能力的替代性

AI在经过大规模版权作品训练后,其产出水平可能接近专业创作者。即便单次输出并非“复制”,但AI的存在本身意味着:市场对人类创作者的需求被削弱。换句话说,AI并不是替代某一部作品,而是替代了“整个市场的创作劳动”。

3. 长期稀释效应

版权保护的价值不仅体现在短期收益,还包括作品在市场上长期维持的独特性和稀缺性。如果AI在持续训练和应用中不断吸收这些作品,原作的市场价值可能逐渐被稀释,最终削弱版权激励。

这类间接市场替代在法律上很难被清晰界定:它并非立刻、直接的市场损害,而是一种潜在的、长期的经济冲击。

四、法律应对上的困境

为什么法院至今仍以“直接市场替代”为核心,而对“间接替代”态度谨慎?原因主要有三:

1. 可预见性与可操作性

司法判断必须有可操作的标准。直接替代容易通过市场证据(如销量下降、订阅流失)来证明,而间接替代往往难以量化。如果法院过于扩张“市场替代”的范围,可能导致任何潜在竞争都被视为侵权,从而冻结技术发展。

2. 技术发展与版权激励的平衡

从公共政策角度看,法院普遍倾向于保护技术创新。在缺乏立法明确指引的情况下,法院通常不会贸然认定AI的“潜在威胁”构成对版权市场的侵害。

3. 责任归属问题

间接替代往往涉及复杂的因果链条:是AI公司本身的责任,还是第三方开发者、终端用户的使用方式导致的替代?在责任归属难以厘清的情况下,法院更倾向于在“直接市场损害”范围内裁判。

五、短期难被接受的解决方案

既然法院在实务中难以直接解决间接替代问题,那是否意味着版权方只能承受这一代价?答案未必如此。以下几个思路值得考虑:

1. 法律制度上的“分层解决”

与其试图在“合理使用”一刀切中解决所有问题,不如采取分层处理方式:

训练阶段:更接近合理使用,强调技术发展与创新自由。

生成与商业化阶段:加强版权控制。例如,当模型输出与特定作品高度相似时,需建立责任归属和补偿机制。

这种“训练宽松—应用严格”的模式,既保持了技术发展的空间,又回应了版权市场的担忧。

2. 建立市场化的许可与补偿机制

实践中,完全阻止AI使用版权作品并不现实。一个更可行的路径是通过集体管理、版权数据库、许可平台,建立类似于音乐行业的“版税分成模式”。AI企业可以支付合理的训练使用费,版权方则通过数据集登记和追踪获得收益。

3. 强化透明度与可追溯性

间接替代之所以难以解决,很大程度上源于训练过程和数据使用的不透明。如果AI公司能够提供可验证的训练数据来源、输出追踪机制,版权方就能更清晰地识别是否存在“市场稀释”,并据此进行谈判或索取补偿。

六、结论

合理使用与市场替代的判断,正处于大模型时代的法律前沿。当前法院仍主要聚焦于“直接替代”,这是出于司法可操作性和技术政策平衡的考虑。但随着AI对版权市场的影响日益加深,间接市场替代与稀释效应将不可避免地进入法律与实务的视野。

解决这一困境的关键,不在于扩大或缩小合理使用的边界,而在于构建一个兼顾创新激励与版权收益的制度框架。具体而言,应当采取“训练环节宽容、应用环节严格”“市场化补偿+技术透明”的复合路径。这样,既不会因过度保护而扼杀技术发展,也不会因纵容AI而侵蚀版权激励的根基,除非有一天AI不再需要人类的新语料,否则就必须考虑通过赋予创作者最大的激励从而实现AI技术的可持续发展。