爱案例·全球AI诉讼风向标

间接市场替代：大模型训练合理使用新问题

生成式人工智能的出现，使“版权素材能否用于大模型训练”成为法律与产业的核心争议之一。无论是美国正在审理的 Andersen v. Stability AI、New York Times v. OpenAI，还是英国、欧盟范围内的类似讨论，焦点都在于：当大模型在训练中使用了大规模版权作品时，这是否属于合理使用（fair use）？

法院在初步判决和意见中普遍强调“市场替代”（market substitution）的重要性。换言之，如果AI的产出直接替代了原作品在市场上的功能和价值，那么合理使用的抗辩就难以成立。

然而，争议并不止于直接替代。一个更具挑战性的问题是：即便AI本身的训练过程并未导致市场上出现与原作“一一对应”的替代，但通过开放模型接口、为第三方提供服务等，AI可能间接稀释版权作品的市场需求，或者逐渐成为与人类创作者并行的竞争者。因此，这种“间接市场替代”是否也应纳入合理使用判断的考量？如果是，版权方与技术方如何寻求平衡呢？

一、“可转化性”不再重要？

美国《版权法》第107条规定了合理使用的四个因素：

使用的目的和性质；

受保护作品的性质；

所用作品在整体中所占的数量和实质性；

使用对潜在市场或作品价值的影响。

在美国的“合理使用”分析里，转化性（transformative use）是一个关键考量点。如果使用只是单纯复制（比如 A 书的翻印本），那几乎肯定不是合理使用，如果使用把原作品变成了一个新的东西，有新的目的、新的意义或表达，那就可能被认定是合理使用。

但在大模型的场景里，模型会把成千上万的文字、图片“喂”进去，建立统计关系（词的共现概率、画面的组合模式）。这一步需要先复制原作品，才能让算法学到规律。训练完成后，模型不会逐字逐句保留原作品，而是形成一种“概率空间”或“参数分布”。生成的内容通常是新的组合，不是原作品的直接再现。

所以，争议就在于，训练行为本身是不是有“新的目的和意义”？

支持的观点认为训练不是为了取代原作品，而是为了“学习语言或图像的规律”，这种目的和原作品的“表达”不同，所以算是转化性的；反对者认为训练只是“规模化复制”，并没有产生直接的新作品或新表达，而是在借用原作品的全部内容来提炼规律，这种使用方式和原作品的市场功能高度相关，不够“转化”。

为什么会出现这种分歧？因为“转化性”的判断历来都带有很强的价值取向，在 Google Books 案（扫描书籍供搜索、展示片段），法院认为这是高度转化性，因为目的完全不同：原作品是用来读的，Google 是用来“检索”的。

但在大模型训练里，版权方会说：原作品是用来“表达思想/创作”的，大模型训练后也能“创作”，所以目的并没有真正改变，只是换了实现方式。

从技术角度，大模型确实没有把作品逐字逐句记住，而是抽取成了“参数化的知识”——这是一种统计层面的“转化”。但从法律角度，法院要看的不只是技术，而是“这种使用是否给了作品新的意义或社会价值”，换句话说，技术上的转化 ≠ 法律上的转化，技术上，训练让作品变成了概率分布，但法律上法院要判断：这是否是“不同的目的、不同的市场角色”，以及是否对原作品市场造成冲击。

二、“市场替代”才是关键

可见“可转化性”作为认定标准，在大模型训练的场景下存在很大争议，越来越多的司法实践显示，第四因素——即“市场替代效应”——往往起到决定性作用。

例如，在 Authors Guild v. Google（Google Books案）中，法院认为谷歌对书籍的扫描和索引并未直接替代书籍的市场功能，反而提升了检索和可读性，因此判定合理使用成立。而在近期关于生成式AI的初步意见中，法官往往紧盯一个问题：AI的输出是否可能被消费者视为原作品的替代品？如果答案是肯定的，合理使用就会摇摇欲坠。例如Thomson Reuters v. Ross Intelligence 一案中，Ross Intelligence 提供的是一种法律研究工具，其系统并不生成原创内容，而是在用户提问时检索并展示司法意见。这虽然不是生成式AI，但其合理使用争议集中在“是否抢夺原平台（Westlaw）功能和市场”。

法官指出 Ross 的工具是“意图与 Westlaw 竞争，作为市场替代品”（“meant to compete with Westlaw by developing a market substitute”），即使中间步骤中使用数据进行处理，但关键在于最终产品的功能与价值是否取代了原作品的平台。所以法院认为，Ross 的使用损害了原作品的市场价值，因此拒绝适用合理使用抗辩。

由此可见，法院的基本逻辑是：版权保护的核心目的在于激励创作，而这种激励的经济基础是作者的市场回报。如果新技术的使用方式直接夺走了这一市场，合理使用就难以成立。

三、新问题：间接市场替代的复杂性

市场替代看似有足够充分的理由和价值，但仍然存在一个衍生问题，即生成式AI的市场影响并非总是直观的“复制—替代”。更多情况下，它体现为一种渐进的、结构性的“间接替代”或“市场稀释”。这主要表现为以下几类情形：

1. 平台开放后的外溢效应

大模型往往通过API、插件等方式向第三方开放。当无数开发者利用同一模型生成内容时，原作品的市场需求可能被整体削弱。例如，一家图片公司可能发现，尽管AI并未一对一复制其作品，但市场客户不再需要订购图库服务，而是直接调用AI生成“风格相似”的作品。

2. 技术能力的替代性

AI在经过大规模版权作品训练后，其产出水平可能接近专业创作者。即便单次输出并非“复制”，但AI的存在本身意味着：市场对人类创作者的需求被削弱。换句话说，AI并不是替代某一部作品，而是替代了“整个市场的创作劳动”。

3. 长期稀释效应

版权保护的价值不仅体现在短期收益，还包括作品在市场上长期维持的独特性和稀缺性。如果AI在持续训练和应用中不断吸收这些作品，原作的市场价值可能逐渐被稀释，最终削弱版权激励。

这类间接市场替代在法律上很难被清晰界定：它并非立刻、直接的市场损害，而是一种潜在的、长期的经济冲击。

四、法律应对上的困境

为什么法院至今仍以“直接市场替代”为核心，而对“间接替代”态度谨慎？原因主要有三：

1. 可预见性与可操作性

司法判断必须有可操作的标准。直接替代容易通过市场证据（如销量下降、订阅流失）来证明，而间接替代往往难以量化。如果法院过于扩张“市场替代”的范围，可能导致任何潜在竞争都被视为侵权，从而冻结技术发展。

2. 技术发展与版权激励的平衡

从公共政策角度看，法院普遍倾向于保护技术创新。在缺乏立法明确指引的情况下，法院通常不会贸然认定AI的“潜在威胁”构成对版权市场的侵害。

3. 责任归属问题

间接替代往往涉及复杂的因果链条：是AI公司本身的责任，还是第三方开发者、终端用户的使用方式导致的替代？在责任归属难以厘清的情况下，法院更倾向于在“直接市场损害”范围内裁判。

五、短期难被接受的解决方案

既然法院在实务中难以直接解决间接替代问题，那是否意味着版权方只能承受这一代价？答案未必如此。以下几个思路值得考虑：

1. 法律制度上的“分层解决”

与其试图在“合理使用”一刀切中解决所有问题，不如采取分层处理方式：

训练阶段：更接近合理使用，强调技术发展与创新自由。

生成与商业化阶段：加强版权控制。例如，当模型输出与特定作品高度相似时，需建立责任归属和补偿机制。

这种“训练宽松—应用严格”的模式，既保持了技术发展的空间，又回应了版权市场的担忧。

2. 建立市场化的许可与补偿机制

实践中，完全阻止AI使用版权作品并不现实。一个更可行的路径是通过集体管理、版权数据库、许可平台，建立类似于音乐行业的“版税分成模式”。AI企业可以支付合理的训练使用费，版权方则通过数据集登记和追踪获得收益。

3. 强化透明度与可追溯性

间接替代之所以难以解决，很大程度上源于训练过程和数据使用的不透明。如果AI公司能够提供可验证的训练数据来源、输出追踪机制，版权方就能更清晰地识别是否存在“市场稀释”，并据此进行谈判或索取补偿。

六、结论

合理使用与市场替代的判断，正处于大模型时代的法律前沿。当前法院仍主要聚焦于“直接替代”，这是出于司法可操作性和技术政策平衡的考虑。但随着AI对版权市场的影响日益加深，间接市场替代与稀释效应将不可避免地进入法律与实务的视野。

解决这一困境的关键，不在于扩大或缩小合理使用的边界，而在于构建一个兼顾创新激励与版权收益的制度框架。具体而言，应当采取“训练环节宽容、应用环节严格”“市场化补偿+技术透明”的复合路径。这样，既不会因过度保护而扼杀技术发展，也不会因纵容AI而侵蚀版权激励的根基，除非有一天AI不再需要人类的新语料，否则就必须考虑通过赋予创作者最大的激励从而实现AI技术的可持续发展。