美国民事诉讼大语言模型著作权进行中
In re OpenAI (多区诉讼)

In re OpenAI (多区诉讼)

重要性评级
法院:Southern District of New York
判决时间:2025年01月01日
当事方:{"plaintiff":"文学和新闻媒体版权所有者 (包括《纽约时报》、作家协会等)","defendant":"OpenAI"}

2025年,十余起针对OpenAI的案件被集中到纽约南区联邦地区法院进行多区诉讼(MDL)。这些案件由文学和新闻媒体版权所有者提起,指控OpenAI未经授权使用其作品训练大型语言模型。MDL将统一审理审前活动,包括简易判决动议和证据开示争议。

案情概述

2025年,十余起针对OpenAI的案件被集中到纽约南区联邦地区法院进行多区诉讼(MDL)。这些案件由文学和新闻媒体版权所有者提起,指控OpenAI未经授权使用其作品训练大型语言模型。MDL将统一审理审前活动,包括简易判决动议和证据开示争议。

核心争议焦点

  • 1AI模型训练数据版权
  • 2未经授权使用受版权保护的作品训练LLM
  • 3AI生成内容是否构成侵权

法院说理

裁判要点

  • 1十余起案件被集中审理,可能对LLM诉讼产生巨大影响
  • 2审前活动将由同一法官监督
  • 3据报道已进行和解谈判

AI技术详情

技术类型:大语言模型
技术原理示意图 · 训练数据侵权链条
版权内容📚 书籍📰 新闻🎵 歌词🖼️ 图片💻 代码训练数据集· 数据清洗· 去重处理· 格式化模型训练· 梯度下降· 权重更新· 知识记忆· 能力涌现AI产品

技术实现说明

大语言模型(LLM)的训练过程涉及对互联网上海量文本数据的采集和处理,其中可能包含大量受版权保护的内容。 本案(In re OpenAI多区诉讼)涉及的核心技术争议: 1. 训练数据来源:OpenAI使用的Common Crawl、Books1、Books2等数据集包含了大量未经授权的版权作品; 2. 记忆效应(Memorization):研究表明,LLM在训练过程中会对频繁出现的文本形成近乎完整的"记忆",能够在特定提示下逐字输出原始训练数据; 3. 输出侵权:当用户要求ChatGPT复述特定书籍内容时,模型能够生成与原著高度相似的文本; 4. 系统性侵权:OpenAI的数据采集行为构成大规模、系统性的版权侵权,而非偶发性侵权。 法律争议焦点:LLM训练过程中对版权作品的"学习"是否构成合理使用;以及模型输出与原著高度相似是否构成实质性相似侵权。