训练数据版权AIGC大模型

模型贡献与生成贡献对版权的影响探讨

当AI越来越聪明:模型贡献与内容贡献对AIGC可版权性的影响

张延来律师
约 6 分钟阅读27 次阅读

当AI越来越聪明:模型贡献与内容贡献对AIGC可版权性的影响

AI大模型生成内容的可版权性问题目前出现了新情况,模型能力提升速度太快了,特别是出现了Lora这种在基础模型之上可以精准训练定向模型技术,AI对指令理解和生成内容的精准程度已经远高于大模型技术刚出现时的水平,而且从趋势上看这种能力的迭代正在以前所未有的速度增长。

于是我们必须考虑一个新的问题,模型越来越聪明,人介入的空间可能越来越小,人在AI生成内容上的贡献可能更多体现在对模型(包括基础模型和以Lora为代表的定向模型)的开发和训练上,一旦模型训练完成,后面的生成过程会变得高度自动化,操作者可以用更精简的指令和更少的提示轮次拿到理想中的内容。那么如何认定这种情况下生成的内容是否可以获得著作权保护的问题呢,说白了就是人在这个过程中哪些贡献可以算作“创作作品”过程中的独创性贡献,是否应该把对模型训练的贡献从作品独创性贡献中剥离出去还是应该一并纳入其中,这会成为接下来司法实践必须面对的重要问题。

一、越来越聪明的AI:训练与生成贡献的联系区别

很多人可以还不太了解基础模型和lora模型的区别,基础模型训练需要从头开始,数据量更大,计算资源更多。而LoRA是在现有基础模型上用特定的语料微调,定向训练出针对性生成能力的模型(例如能更好的生成梵高风格的图片或者生成某个IP形象有关的内容),所需要的资源和步骤都更少。

我们可以把训练基础模型的工作想像成从头培养一个学生,在这个过程中,人作为老师一般的存在,其对模型的贡献可以更细致的划分为如下内容:

备课(收集、整理、归档数据语料、设计模型)

搭建学习环境(硬件准备)

制定课程表:设计训练参数(每天学多少内容,考试频率等)

实际教学(训练过程)

毕业考试与结业(模型评估,确认模型达到标准后封装保存)

相比之下,我们可以把训练Lora定向模型的工作想像成给专家(基础模型)做短期培训,在这个过程中,人作为培训师对Lora模型的贡献可以更细致的划分为如下内容:

选择专家(挑选现成的大模型,如ChatGPT/Stable Diffusion/Deepseek)

准备培训资料(特定领域的数据语料准备)

基础模型能力锁定:固定基础模型大部分参数,仅开放少量可调整参数

专项培训(反复学习特定领域样本)

结业考核(模型测试封装)

事实上,Lora定向模型的训练可能比我们想象的还简单,在笔者代理的一则Lora模型开放平台侵权责任案件中, 我们发现部分大模型平台已经提供了普通用户都可以操作的Lora训练工具,只要用户贡献少量训练数据和一些参数设置操作,就可以完成一个自己的Lora模型。

Lora模型技术的出现,让AI生成内容变得更加精准和简单,而基础模型本身的能力也在迅速增强,并且训练成本远低于过往人们以为的水平,Deepseek就是典型的代表,基础模型能力提升同样带来了内容生成难度上的降低,二者叠加起来给我们最直观的体验就是:AI越来越聪明了

二、模型训练贡献对可版权性的影响

从前文的介绍,我们可以看出模型训练过程中人的参与和贡献是客观存在的,并且对模型后续生成具体的内容也是有客观帮助的,但这又似乎并不一定完全等同于对生成内容的贡献。

就类似于老师教会了一个学生使他成为了一名优秀画家,某天老师想到一个很好的绘画构思但自己不想动笔,于是就把构思告诉了学生由学生动笔完成,过程中老师全程监督,并且实时提出修改意见,直到学生画出了一张老师满意的作品。那么在这个过程中,老师对这张绘画作品的创作贡献(独创性贡献)是否包括之前培养学生使之成为画家的工作贡献呢?

搞清楚这个问题的目的在于,有效区分人在具体的AIGC作品中的实质性贡献到底是哪些,笔者认为这些贡献应当不包含模型贡献,因为一旦模型被训练完成,其生成能力便与人没有关系,模型在任何具体内容的生成过程中所起到的作用都是独立和固定的,所以需要剥离这部分固定的能力单独去看在此基础上人的独立贡献,至于模型贡献可以通过软著、商业秘密、专利等加以保护,而不是借助其具体生成的作品,这个问题特别是在模型训练和模型生成内容都是同一主体贡献的场景下显得更加重要。

三、区分的意义和标准

《著作权法》对作品的认可和保护基于作者的独创性,AI技术的提升导致了从最终结果上看似乎内容(作品)质量越来越好,但这并不代表着人的独创性越来越高,有时候恰好相反,还是回到本文讲的师徒的例子,如果徒弟太厉害了,老师只简单给了一个创作提示,徒弟就拿出了一副杰作,很难说这个作品是老师的创作,从而让这张作品的著作权归属于老师,但我们应该承认老师的教学能力非常强。

很多情况下,模型能力越强,人可能施展的空间越小,理论上应该以更高的标准审查人的对内容本身的独创新贡献,否则将会随着模型技术的进步,导致海量内容被纳入著作权保护范围,进一步占用司法资源的同时却没有带来人的创作能力提升,也不符合《著作权法》保护作者权利的宗旨。

那么,如何区分模型训练贡献和内容生成中的独创性贡献呢,从具体的标准上看,可以有几个判断维度:

人的贡献是针对模型能力还是具体作品。特别是在Lora模型训练的场景中,不能因为Lora模型有一定的指向性,就将其认为是对作品的贡献,毕竟Lora模型还是一个不特定多数作品的生成模型,也不是只为了生成一个作品而训练的;

生成内容对模型自身能力的依赖度。如果过分依赖模型,在提示和修改过程中只用了一些固定的模版和话术,不能认为是独创性贡献,除非在最终作品的选择上有非常独到的眼光,挑选出了跟模型常规输出内容差异很大的内容;

生成结果上的差异度和原因。这个判断维度也特别适用于Lora模型,因为经过了定向训练,Lora模型的生成内容会出现较高程度的同质化,所以如果基于人的贡献使得生成结果与模型同质化生成结果之间出现了较大差异,应该倾向于认为是对作品的独创新贡献,否则就不是。

分享文章
阿来律师 AI分身
AI 分身