涉人工智能诉讼案件趋势与法律难点
人工智能(AI)正以前所未有的广度和深度渗透到社会生活的各个角落,随之而来的是法律领域面临的全新挑战。特别是涉人工智能的诉讼案件,已成为当下法律实践中的一个热点与难点。作为一名代理了多起不同类型涉人工智能典型案例的律师,我对此进行了阶段性的深入观察与思考,试图梳理当前涉AI诉讼案件中的热点趋势与法律难点,并探讨未来可能的解决路径。
一、 AIGC版权之争:作品、作者与侵权边界
生成式人工智能(AIGC)内容的出现,极大地模糊了传统版权法中关于“作品”、“作者”和“侵权”的既有定义,由此引发的版权诉讼已然成为当前AI法律领域最活跃的战场。
AIGC生成内容的“可作品”标准如何界定?
传统版权法强调“独创性”,但对于AIGC内容,如何衡量其是否具备独创性,成为了一个核心难题。北京互联网法院在“文生图首案”中明确认定用户在生成过程中根据自身需求对人工智能模型进行相关设置和多轮修改,并最终选定涉案图片的过程体现了其独创性智力投入,因此该图片具备独创性构成作品。同时法院认定作为通过智力投入产生最终作品的主体,用户(自然人)是涉案图片的作者享有著作权。这为AIGC内容的“作品”属性提供了司法层面的初步肯定。
然而,根据江苏省苏州市中级人民法院在“AI文生图不构成作品首案”中的裁判观点,仅通过简单提示词触发AI自动生成的图片,因缺乏使用者独创性智力投入,不能认定为著作权法意义上的作品 。法院认为,作品判断的核心在于人类的独创性智力成果 ,简单输入的提示词属于思想而非表达内容,不受著作权保护 。该案中,法院认为原告未能提供有效证据证明其对AI生成过程进行了实质性审美选择或个性化调整,未能体现足够的独创性智力贡献,故不构成作品。该案强调了AI生成内容要获得版权保护,必须有“足够人类智力投入”作为前提 。
核心难题: 人机协作生产内容,在AI高度智能化的情况下“独创性”的标准如何认定?
笔者认为,在判断AIGC生成内容是否构成作品时,要考虑两个非常关键的问题,一是AI的智能化程度,尤其是在生成作品中AI的“自动化贡献”程度,AI贡献越大,人的“独创性”空间越小。例如笔者代理的某个定向训练模型相关侵权案中,模型经过定向训练,可以稳定输出某个风格(甚至固定了某个人物形象)的图片,这种情况下应该提高“独创性”认定门槛,因为这种定向模型相比较发散式生成的通用模型而言,前者自动化生成的程度过高,人的智力介入空间微乎其微。
第二个需要考虑的问题是,人在使用AI过程中是否对最终生成内容在具体表达上有所贡献,例如有学者提出“多轮线性修正”的情况下才有可能认定“独创性”,因为第一轮AI生成时,用户只需要提供提示词和参数设置,对于将要生成的具体内容没有清晰的预见和控制,这时的提示词应该属于“思想”而非“表达”。
谁是AIGC生成内容的“作者”?
如果AIGC生成内容被认定为作品,那么接下来谁享有著作权就成了要考虑的问题,是开发AI模型的公司、训练模型时使用数据的提供者还是输入指令的用户呢?这个问题还关系到生成的内容如何出现了侵权,责任主体如何划分。
目前,主流观点可能更倾向于将输入指令并进行必要调整的用户视为作者,因为他们是直接进行智力投入并产生最终结果的主体。大模型公司也往往乐见其成,在其用户协议中约定生成内容的权利归属于用户,毕竟模型公司如果要这些权利,可能会引发用户不满,同时也面临非常大的侵权风险。
训练数据提供者直接主张对生成内容的著作权的情况也非常罕见,但也不是没有,笔者代理的案件中出现了模型语料提供者和模型训练者、使用者为同一人的情况,并且其主张对生成物的版权时就将语料贡献和训练贡献作为重要依据,案件目前还在进行中。
法律困境:定向模型训练者能否因对模型的贡献成为生成内容的版权方,这个问题非常有讨论的必要和价值。毕竟定向生成的模型离不开专门的训练(业内通常叫做微调),这种专门训练往往需要特殊的语料和反复对模型进行参数等的调整。
笔者认为,不论是通过协议还是法律规定,将用户生成内容著作权归属于大模型开发者,可能都不符合著作权法鼓励创作、保护作者权益的立法宗旨。开发者的贡献更多体现在技术提供和能力赋予上,用户的智力投入才是作品形成的关键。而且开发者对模型开发的投入可以通过模型授权收回,不需要再通过模型生成内容再次获取收益,有点类似于“权利用尽”。当然,如果模型开发者一开始就通过用户协议等明确声明了其对生成内容享有版权,自然也可以具备法律效力,只不过用户还会否愿意使用这种模型并为之付费就很难说了。
AIGC生成内容引发的侵权责任如何认定?
AIGC可能生成与现有作品高度相似甚至完全一致的内容,导致侵权。“广州互联网法院奥特曼案”具有标志性意义,该案是全球首例针对生成式人工智能服务提供者因生成内容而被认定构成著作权侵权的生效判决。
这引发了三个关键问题:
侵权标准的适用: “接触+实质性相似”这一传统著作权侵权标准能否无缝应用于AIGC场景?AI的学习过程是否构成“接触”?AI生成的“相似”是否构成传统意义上的“实质性相似”?
侵权主体的确定: 侵权责任应由谁承担?是提供AIGC服务的平台还是输入指令产生侵权内容的用户,或者两者共同承担?还有一种情况是,当模型采用了套壳的方式,基于已有的大模型底座,然后做了一些应用层的开发,底座模型是否也需要承担责任。
侵权意图的考量: AI不具备主观侵权故意,用户也可能在不知情的情况下触发AI生成侵权内容。在认定侵权责任时,是否需要考虑用户或平台的主观状态?
笔者认为,对于AIGC生成内容的侵权问题,应采取一种“分层责任”的思路,这个问题我在《势在必行:大模型平台责任分层的可行性构想》一文中已经有详细分析,简单归纳就是。
用户责任: 如果用户在明知或应知输入指令可能导致侵权结果的情况下仍然为之,应承担主要责任。这包括直接使用已有IP的关键词进行提示后出生成对应内容,以及利用AI进行“洗稿”、仿写等行为。
模型提供者责任: 作为AIGC应用服务的提供者,应承担与其能力和控制力相匹配的责任。这可能包括事前的内容过滤、事后的通知-删除义务,以及在发现利用其服务进行大规模侵权行为时的更高注意义务。特别是AIGC平台应加强对训练数据的合规性审查,努力避免使用大量侵权内容进行训练。
通用底座模型开发者责任: 在著作权侵权方面,笔者认为底座通用模型不需要承担类似“避风港”、“红旗”之类的注意义务(豁免条件),毕竟底座模型位于底层,应该尽力提升整体生成能力,除非模型针对某些应用场景进行了专门训练。
在探讨AIGC平台的责任分配时,杭州互联网法院审理的另一起“奥特曼案”(仍是笔者代理)提供了重要参考。该案认定涉案AI平台作为第三方性质的技术服务提供者,对用户上传和生成的侵权内容,因未尽到合理注意义务而承担间接侵权(帮助侵权)责任。该案的贡献在于法院创新性地指出不能简单套用传统网络服务提供者应知标准,而应结合生成式人工智能的特点、平台功能及其营利模式等因素,确定平台应承担的合理注意义务范围。这为理解和界定AIGC服务提供者的法律责任开辟了新路径。与杭州案不同,广州案直接认定平台为侵权内容提供者,承担直接侵权责任。两案的核心差异在于法院对平台在侵权链条中所扮演角色的认定(内容提供者 vs. 技术服务提供者)及相应的责任类型(直接侵权 vs. 间接侵权),这取决于具体的技术实现方式和平台对内容的控制力。
二、 模型开源与闭源:技术边界与法律管制
AI技术的快速迭代离不开开源文化的推动,但模型的开源与闭源,以及随之而来的“模型抄袭”、“模型仿冒”等问题,也带来了新的法律挑战。
开源边界
“零一万物”就曾因使用LLaMA 开源架构引发“抄袭”争议,将AI模型本身的独创性、可版权性以及商业秘密保护等问题推到台前。AI模型是复杂的数学算法和代码以及参数的集合,其训练数据、算法架构、参数设置等构成其核心竞争力。如何判断两个模型之间是否存在“抄袭”?是代码层面的直接复制粘贴还是模型结构、参数构成乃至输出结果的“实质性相似”,在司法实践中还没有形成统一的标准。
此外,开源社区中大量的开源模型都是用了现有的主流开源协议(例如Apache 2.0、MIT等),这些开源协议相对比较模糊,一旦出现争议,难以直接分清使用边界,所以部分大模型开发者在引用现有协议之外,还自行通过网站条款、声明、问答等形式对协议开源提出了更多限制,这些在法律效力上如何认定也是接下来需要解决的问题。
笔者认为,当下大模型开源一个比较复杂的问题是传统的开源许可证往往是针对代码的,而大模型开源很多时候开源的并非代码而是模型参数,所以处理模型抄袭争议,不能简单套用传统著作权法对代码的保护。AI模型的价值核心在于其能力(Capabilities)和智能水平,这很难直接体现在可版权的代码或可专利的算法上,闭源模型会考虑通过商业秘密保护,这或许是一个更可行的路径,但需要企业证明其模型的特定要素(如训练数据、关键超参数)符合商业秘密的构成要件。未来,可能需要立法层面探索专门针对AI模型的保护机制,承认其在技术和经济上的特殊价值。
AI 物料清单(BOM)
实践中还有一个问题,大量AI模型基于开源模式开发和共享,虽然降低了技术门槛,但也带来了风险。使用者必须严格遵守开源协议的条款,但在复杂的AI技术开发过程中,具体的开发人员不一定充分了解哪些用到的资源属于开源,以及受到哪些具体开源许可的约束,法务团队由于没有参与实际开发,不了解具体技术,所以也很难直接控制整个项目的合规性,导致企业或开发者使用了多少开源模型、分别遵循哪些开源协议,以及是否严格遵守了所有协议条款,构成了潜在的合规风险。
笔者基于过往为相关企业进行大模型开源合规的经验,认为在使用开源AI模型时,详细审计和记录所使用的所有开源组件及其对应的开源协议是至关重要的,必要时可以使用专门的技术介入,自动审查和判断所用到的开源资源清单(AI BOM),建立内部开源合规审查制度,明确不同开源协议下的权利义务,避免因不了解开源协议限制而产生侵权或违约风险,特别是不要对开发出来的模型后续商用产生阻碍。
三、 AI技术滥用与“技术中立”原则的边界
AI作为革命性的技术,其发展当然遵守技术中立原则,但“技术中立”也常常成为技术滥用的借口。
AI技术灰产
AI洗稿、仿写、自动生成种草文案、深度伪造(Deepfake)等应用,对网络信息真实性、平台真实内容生态、个人声誉、社会信任等构成了挑战,甚至演变成了网络黑灰产。
洗稿与仿写: 利用AI对已有文章进行同义词替换、句式调整,以规避抄袭检测,严重破坏原创生态。
虚假内容生成: 利用AI批量生成虚假新闻、种草文案、网络谣言,误导用户的同时扰乱信息秩序。
深度伪造: 利用AI合成虚假图像、音频、视频,冒充他人身份进行欺诈、诽谤或传播淫秽信息,其社会危害性尤为巨大。
中央网信办近期开展的《清朗·整治AI技术滥用》专项行动,正是行政力量针对AI技术滥用问题的积极介入,表明监管层已经意识到问题的紧迫性,并开始采取行动。
但司法层面遇到此类问题,往往伴随着争议,最大的阻力往往来自“技术中立”原则,法院会担心一旦对某种AI技术应用给出否定判决,会不会产生对AI技术发展和应用的阻碍效果,而且在个案中已经出现只要找到某种AI应用的小概率合法使用场景,就可以按照“技术中立”使其免责,这种认定思路是值得探讨的。
笔者认为,在处理AI技术滥用问题时,不能过度强调“技术中立”原则而忽视技术应用的社会影响,技术可以中立,但使用者不一定中立,所以要深入到具体的使用场景,了解行业实践的基础上进行认定,对于明显或者高度盖然用于侵权、非法用途的AI应用就应该给予否定,引导科技向善恰恰是法律最应该体现的价值,否则放任“劣币驱逐良币”,让技术滥用和失控的后果被社会所承担,是法律的缺位,。
AI产品重构:商业模式与产品形态的法律挑战
随着AI技术的发展,许多传统产品和服务的商业模式和产品形态正在被重构,很多人都在说“AI会把所有产品重做一遍”,但重做意味着对原有利益格局的打破和再分配,比如对原有产品的形态进行了改变(改变外观形态、介入内部形态等),对原有商业模式(流量分配等)进行了改变等,必然引发新的法律问题。
笔者认为,对于AI产品重构带来的法律挑战可能主要来自于反不正当竞争领域,不论是诚信原则还是互联网专条等,都很可能成为受到冲击的一方所采用的自保措施,而且基于《反不正当竞争法》的利益诉求,很可能导致除了经济赔偿之外的业务停止(因侵权被司法叫停),这恐怕是老板们最不愿意看到的,因此对于AI创新者和颠覆者而言,应采取“合规前置”和“风险导向”的策略降低风险。
合规前置: 在产品设计和开发初期,即应充分考虑对“竞品”或其他相关产品的影响,从多个维度做好评估,在产品层面力求将影响降到最低(不影响产品功能和用户体验的前提下)。
风险导向: 根据产品的功能、应用场景和潜在风险,采取不同程度的法律规制措施。尤其是针对有强大实力的直接竞对,或者针对其他产品的核心功能、资源等开发的应用,需要格外注意,对方很可能从各个维度发动反击措施。
四、 AI训练语料:合理使用与权利冲突
大模型的高度智能化依赖于海量数据的“投喂”,这些训练数据构成了AI模型的“食粮”。然而,这些数据往往来源复杂,涉及多重权利,由此引发的法律争议也越来越多。
合理使用考量维度与权重
AI训练数据通常包括互联网上的公开信息、用户生成内容、购买的第三方数据等 。这些数据可能包含受著作权保护的文本、图片、音乐,也可能涉及用户的个人信息甚至商业秘密 。美国备受关注的“汤森路透(Thomson Reuters)诉罗斯(Ross)案”正是一个涉及训练数据著作权问题的典型案例,该案中法官系统性的提出了四个判断合理使用的维度,并进一步给出了每一个维度的考量权重,非常有借鉴意义,笔者在另一篇文章《美国首例AI训练侵权案:“合理使用”抗辩底层逻辑》中有详细分析。
实际上,在我国法律框架下,AI模型训练数据的合法性是悬在所有模型开发者头上的达摩克利斯之剑。在未经权利人明确授权的情况下,对含有受版权保护的作品进行大规模复制、存储和处理用于模型训练,既存在构成著作权侵权的法律风险还可能构成不正当竞争。
实际上,模型训练引发的问题,本质上是AI和人类之间的紧张关系的集中体现,毕竟模型一旦学会了数据,接下来可能对数据提供者产生很大的替代效果,也就是我们常说的“教会徒弟,饿死师傅”。尤其是当下网络公开数据已经被学习完毕,下一步模型会转向垂直领域的封闭数据,这时候的数据价值显然更高,也更容易主张权利,引发的纠纷会更加激烈。
合理使用的扩大与限制
笔者认为,一方面需要将“合理使用”制度扩大化,突破版权这一单一层面,因为还有大量的训练数据不是版权数据,应该更大程度上赋予模型训练者对公共领域数据的使用权益,快速推动AI技术的发展;另一方面,积极构建数据贡献者的权益保障及交易机制,不能无视数据贡献者的利益,否则数据作为“生产要素”的价值必然落空,没人愿意生产数据,最终模型也就成了“无源之水”了。此外,也应当借鉴美国Ross案,重点考量AI训练之后是否对数据贡献者形成了替代效果从而科学适用“合理使用”制度,不能真的允许“教会徒弟,饿死师傅”的情况出现。
五、小结
涉人工智能的诉讼案件,正以前所未有的速度和复杂性挑战着现有的法律体系。从AIGC的版权归属到模型的抄袭认定,从技术滥用的责任分配到训练数据的合规难题,每一个热点背后都对应着难以破解的法律困境。
作为法律从业者,我们必须保持对AI技术的持续关注和深入理解,才能有效应对这些挑战。简单套用传统法律原则往往难以奏效,需要在理解技术本质和社会影响的基础上,进行创造性的法律解释和规则构建,必要时引入经济学、社会学等多个学科理论,才能更好的解决个案的同时追求最佳社会效果。
