Logo

全球AI诉讼风向标

Global AI Litigation Compass

训练数据开源许可大模型

大模型的艰难抉择大模型的艰难抉择:开源与商用深度调研报告

与传统软件开发中源代码、编译工具和最终产品的高度统一不同,大模型的“开源”呈现出复杂的分层结构,这直接影响了模型的可用性、再开发潜力以及商业应用模式。就目前的情况看,中美大模型产业都面临这一个共同的艰难抉择,那就是如何在开源和商用之间找到完美的平衡点,对于这个问题,不同的大模型厂商给出了不同的答案——阶段性的答案。

张延来律师
2025年9月5日约 13 分钟阅读2 次阅读

大模型的艰难抉择:开源与商用研究报告

与传统软件开发中源代码、编译工具和最终产品的高度统一不同,大模型的“开源”呈现出复杂的分层结构,这直接影响了模型的可用性、再开发潜力以及商业应用模式。就目前的情况看,中美大模型产业都面临这一个共同的艰难抉择,那就是如何在开源和商用之间找到完美的平衡点,对于这个问题,不同的大模型厂商给出了不同的答案——阶段性的答案。

一、大模型“开源”的几个核心层次

模型权重(Model Weights)的开放:这是最核心的形式,指的是预训练或指令参数后,包含总计亿甚至数千亿参数的模型文件。模型的性能和知识就存储在这些权重中。开放权重允许用户在本地或外接服务器上进行推理和决策,是实现真正自主控制的基础。

模型代码(模型代码)与架构的开放:这部分通常包括模型的网络结构定义、加载和运行模型的脚本脚本。它让开发者能够理解模型的内部工作机制,进行二次开发或性能优化。但是,这与传统的开源软件开发依然不同,因为模型代码本身不包含其核心智能,而隐藏于庞大的参数文件中。

训练过程与数据集的开放:这是训练过程中最罕见的开放形式。它包括用于训练过程的原始数据集、训练过程的详细配置、超参数和计算资源消耗。只有极少数项目能够提供完整的数据,大多数公司仅通过技术报告或论文模型形式提供部分摘要信息,以保护其核心知识产权。

平台与生态工具的开放:围绕模型构建的工具、库、API和开发框架。这是一种生态层面的开放,旨在降低开发倾向,吸引更多开发者加入,从而构建一个围绕其核心技术的强大生态系统。

了解了开放的层次,我们围绕这四个维度,对Llama、DeepSeek、Grok、Qwen、Baichuan以及飞桨等主题模型进行深入分析,揭示其在技术、法律和商业策略上的布局和选择。

二、Llama系列:排除竞品的“社区式开放”

Meta公司的Llama系列开源的核心对象是模型权重与分词器(Tokenizer),Meta通过其官方网站和Hugging Face等平台提供预训练和指令参数模型的权重文件,允许用户下载用于本地推理或参数。此外,GitHub仓库中还包含了用于加载、运行和量化模型的参与代码和脚本,例如用于下载模型的Llama CLI工具 llama-stack,以及用于推理的PyTorch运行脚本。最新发布的Llama 4系列模型对硬件提出了更高的要求,例如Llama 4 Scout在高精度推理时建议多卡部署,但在单卡 H100 上亦可运行。

Llama系列最引人注目的策略体现在其许可协议上,尤其是“Meta Llama 3社区许可协议”。该协议的核心条款之一是: “If the total monthly active users (MAU) of the products or services of Licensee and its affiliates exceed 700 million, Licensee must request a separate commercial license from Meta.”(若被许可人及其关联方的产品或服务的月活用户超过七亿,须另行申请商业许可)。

这一条款通过对MAU的限制,成功将谷歌、微软、亚马逊等超大型科技公司排除在外,防止这些公司直接利用其免费模型来训练自己的闭源商业产品,从而保护了其核心竞争力。与此同时,自 Llama 3.1 起,Meta 在许可中新增了开放性条款:“You may use the output of the Llama Materials to improve any model, including by generating synthetic data or distillation.”(您可以使用 Llama 材料的输出改进任何模型,包括通过生成合成数据或蒸馏的方式)。这意味着蒸馏自 3.1 起得到明确允许,Llama 4 延续了这一开放策略。Meta 的“开放”并非纯粹的利他主义,而是通过社区力量巩固市场地位、同时保留关键商业谈判筹码的高级架构。

另外,随着Llama 3.2-Vision和Llama 4 Scout等新模型的发布,Llama系列已经从最初的纯文本模型转变为支持图像理解和高达1000万令牌超长上下文。这一演进揭示了下一代“开放”模型的核心功能将不再是单一的文本生成,而是其在复杂、多模态、超长语境下的综合推理和应用能力,这是对实际应用场景如代码库分析、长篇文档摘要的深度响应。

三:DeepSeek系列:MoE架构与“代码+模型”的双重模式

DeepSeek系列模型习得独特的混合专家(MoE)架构和创新的“双重许可”模式,在中国事实上全球的开源生态中占据了重要地位。其核心技术优势依托MoE架构,该架构使得模型能够在保持强大性能的同时,显著降低训练和推理成本。例如,DeepSeek-V2的总参数量高达236B,但在每次处理时仅激活其中21B参数,其效率远超传统的密集模型。

DeepSeek系列采取了独特的开放策略,其开源对象可以分为两个方面:

其基础代码库遵循MIT许可证,这是一个高度广泛的开源许可,允许用户自由使用、修改和分发代码。此外,其GitHub仓库中还提供了详细的技术报告,供研究者学习模型训练细节。

尽管底层代码遵循极为开放的MIT许可证,但DeepSeek的核心资产——模型权重——则受制于定制化的“DeepSeek模型许可”。与Llama根据公司规模设定的限制不同,DeepSeek允许所有规模的企业和开发者使用,但附带 Use-based Restrictions 条款:“You may not use the Model or Derivatives to (i) generate or disseminate malicious or harmful content; (ii) conduct cyberattacks; (iii) develop models that compete with DeepSeek’s core offerings.”(禁止使用模型或衍生品生成恶意内容、实施网络攻击,或开发与 DeepSeek 核心产品直接竞争的模型)。

DeepSeek的这种许可模式旨在通过“禁止性用途”平衡开放与安全,在“开放”与“责任”之间找到平衡点。这既促进了模型的广泛传播,也通过法律手段为潜在风险设置了边界。

四、Grok系列:从全开源到api接口

Grok 系列模型稍微开放策略充满了品牌宣传和商业博弈的色彩,从 Grok-1 到 Grok-Code-Fast-1 和 Grok-4,不同版本的开放方式存在明显差异。

Grok-1:高举“开放”旗帜的基础模型

Grok-1的开放对象是授权的基础架构模型权重和架构。这是一个拥有3140亿参数的混合专家(MoE)模型,但每次仅激活其中25%的权重。xAI为Grok-1选择的许可协议是 Apache 2.0,该协议明确写道:“Permission is hereby granted, free of charge, to any person obtaining a copy... to use, copy, modify, merge, publish, distribute, sublicense, and/or sell copies.”(特此免费授予任何人使用、复制、修改、合并、发布、分发、再许可及销售的权利)。这意味着用户拥有高度自由,包括商用与再分发。

Grok-1 在Apache 2.0下开放的举动被媒体解读为对OpenAI的封闭模式的一种直接回应。xAI既借此履行了“开放”承诺,又保留了对后续更高性能模型的控制。

与 Grok-1 的开放形成了对比,Grok-Code-Fast-1 和 Grok-4 并未以可下载权重形式开放,而是通过API与订阅制提供,收费方式包括按令牌计费和高级订阅(SuperGrok)。这种混合路径既享受了开源带来的社区红利,又通过封闭服务实现商业变现。

五、Qwen与百川:更加开放的姿态

Qwen团队的开放范围极为广泛,涵盖语言模型(Qwen系列)、多模态模型(Qwen-Image, Qwen-VL)和特定领域模型(Qwen-Coder、Qwen-Audio)。他们不仅开放权重,还在GitHub上提供代码库,相关模型和工具链可在阿里云的ModelScope社区获取。

但需要注意,Qwen许可中有一条重要要求:“If you use the output of the Qwen Models to train, fine-tune, or improve another model, you must clearly indicate ‘Built with Qwen’ or ‘Improved using Qwen’ in a prominent place.”(若使用 Qwen 模型输出训练或改进其他模型,须在显著位置标注“Built with Qwen”或“Improved using Qwen”)。这意味着虽然允许蒸馏和再利用,但必须履行署名义务。

百川智能的 Baichuan 2 系列(7B、13B)开放了训练检查点、技术报告和源代码。但需要特别指出,其采用的是 Baichuan Community License,而非 Apache 2.0。该许可对“衍生品”有明确界定:“Model Derivatives include... transferring weights, parameters, activations, or output patterns to another model, including methods that require intermediate representations or synthetic data generated from the Model.”(模型衍生品包括将权重、参数、激活或输出模式转移至其他模型,包括需要中间表示或基于模型生成合成数据训练其他模型的方法)。这意味着蒸馏在百川许可中被视为衍生品,允许使用,但必须遵守条款。

区别于前述单一模型,开源飞桨(PaddlePaddle)是一种独特的“平台级开放”模式。它是一个完整的开源深度学习框架,包含80多个官方模型和200多个预训练模型,覆盖视觉、NLP、语音等领域,提供从训练到推理的全流程工具链。飞桨的战略在于通过平台构建技术黏性,力图成为中国AI基础设施的重要组成部分。

六、深度洞察:大模型“开源”的未来走向

基于上述分析,可以得出以下结论:纯粹的“开源”或“封闭”模式在大模型领域都难以持续。未来的趋势是混合商业模式的必然性。

公司将通过开源基础模型来建立社区和影响力,而通过提供付费API服务、云端部署或订阅制来实现商业价值。这种策略使得公司能够同时享受开源带来的社区红利,又通过封闭服务实现商业变现,将技术研究与商业价值紧密结合。

另外,真正的竞争正在从“开放权重”向“开放生态”演进。未来的竞争将不仅仅是单个模型的性能,而是其背后所支撑的平台、工具链和社区。飞桨的“平台开源”模式,以及DeepSeek通过高效的MoE架构来吸引开发者的策略,都围绕着这一趋势。未来的“开放”将越来越像一个完整的生态系统,而不仅仅是模型的开放。

最后,随着Llama 3.2-Vision、Qwen-Image和Baichuan-Omni-1.5等多模融合模型的出现,未来的开源模型将不再局限于文本,而是会扩展至视觉、音频、工具使用等多种能力,成为真正意义上的“通用智能体”。这将进一步模糊“模型”与“应用”的界限,为开发者和企业带来开源的机遇与挑战。