爱案例·全球AI诉讼风向标

大模型的艰难抉择：开源与商用研究报告

与传统软件开发中源代码、编译工具和最终产品的高度统一不同，大模型的“开源”呈现出复杂的分层结构，这直接影响了模型的可用性、再开发潜力以及商业应用模式。就目前的情况看，中美大模型产业都面临这一个共同的艰难抉择，那就是如何在开源和商用之间找到完美的平衡点，对于这个问题，不同的大模型厂商给出了不同的答案——阶段性的答案。

一、大模型“开源”的几个核心层次

模型权重（Model Weights）的开放：这是最核心的形式，指的是预训练或指令参数后，包含总计亿甚至数千亿参数的模型文件。模型的性能和知识就存储在这些权重中。开放权重允许用户在本地或外接服务器上进行推理和决策，是实现真正自主控制的基础。

模型代码（模型代码）与架构的开放：这部分通常包括模型的网络结构定义、加载和运行模型的脚本脚本。它让开发者能够理解模型的内部工作机制，进行二次开发或性能优化。但是，这与传统的开源软件开发依然不同，因为模型代码本身不包含其核心智能，而隐藏于庞大的参数文件中。

训练过程与数据集的开放：这是训练过程中最罕见的开放形式。它包括用于训练过程的原始数据集、训练过程的详细配置、超参数和计算资源消耗。只有极少数项目能够提供完整的数据，大多数公司仅通过技术报告或论文模型形式提供部分摘要信息，以保护其核心知识产权。

平台与生态工具的开放：围绕模型构建的工具、库、API和开发框架。这是一种生态层面的开放，旨在降低开发倾向，吸引更多开发者加入，从而构建一个围绕其核心技术的强大生态系统。

了解了开放的层次，我们围绕这四个维度，对Llama、DeepSeek、Grok、Qwen、Baichuan以及飞桨等主题模型进行深入分析，揭示其在技术、法律和商业策略上的布局和选择。

二、Llama系列：排除竞品的“社区式开放”

Meta公司的Llama系列开源的核心对象是模型权重与分词器（Tokenizer），Meta通过其官方网站和Hugging Face等平台提供预训练和指令参数模型的权重文件，允许用户下载用于本地推理或参数。此外，GitHub仓库中还包含了用于加载、运行和量化模型的参与代码和脚本，例如用于下载模型的Llama CLI工具 llama-stack，以及用于推理的PyTorch运行脚本。最新发布的Llama 4系列模型对硬件提出了更高的要求，例如Llama 4 Scout在高精度推理时建议多卡部署，但在单卡 H100 上亦可运行。

Llama系列最引人注目的策略体现在其许可协议上，尤其是“Meta Llama 3社区许可协议”。该协议的核心条款之一是： “If the total monthly active users (MAU) of the products or services of Licensee and its affiliates exceed 700 million, Licensee must request a separate commercial license from Meta.”（若被许可人及其关联方的产品或服务的月活用户超过七亿，须另行申请商业许可）。

这一条款通过对MAU的限制，成功将谷歌、微软、亚马逊等超大型科技公司排除在外，防止这些公司直接利用其免费模型来训练自己的闭源商业产品，从而保护了其核心竞争力。与此同时，自 Llama 3.1 起，Meta 在许可中新增了开放性条款：“You may use the output of the Llama Materials to improve any model, including by generating synthetic data or distillation.”（您可以使用 Llama 材料的输出改进任何模型，包括通过生成合成数据或蒸馏的方式）。这意味着蒸馏自 3.1 起得到明确允许，Llama 4 延续了这一开放策略。Meta 的“开放”并非纯粹的利他主义，而是通过社区力量巩固市场地位、同时保留关键商业谈判筹码的高级架构。

另外，随着Llama 3.2-Vision和Llama 4 Scout等新模型的发布，Llama系列已经从最初的纯文本模型转变为支持图像理解和高达1000万令牌超长上下文。这一演进揭示了下一代“开放”模型的核心功能将不再是单一的文本生成，而是其在复杂、多模态、超长语境下的综合推理和应用能力，这是对实际应用场景如代码库分析、长篇文档摘要的深度响应。

三：DeepSeek系列：MoE架构与“代码+模型”的双重模式

DeepSeek系列模型习得独特的混合专家（MoE）架构和创新的“双重许可”模式，在中国事实上全球的开源生态中占据了重要地位。其核心技术优势依托MoE架构，该架构使得模型能够在保持强大性能的同时，显著降低训练和推理成本。例如，DeepSeek-V2的总参数量高达236B，但在每次处理时仅激活其中21B参数，其效率远超传统的密集模型。

DeepSeek系列采取了独特的开放策略，其开源对象可以分为两个方面：

其基础代码库遵循MIT许可证，这是一个高度广泛的开源许可，允许用户自由使用、修改和分发代码。此外，其GitHub仓库中还提供了详细的技术报告，供研究者学习模型训练细节。

尽管底层代码遵循极为开放的MIT许可证，但DeepSeek的核心资产——模型权重——则受制于定制化的“DeepSeek模型许可”。与Llama根据公司规模设定的限制不同，DeepSeek允许所有规模的企业和开发者使用，但附带 Use-based Restrictions 条款：“You may not use the Model or Derivatives to (i) generate or disseminate malicious or harmful content; (ii) conduct cyberattacks; (iii) develop models that compete with DeepSeek’s core offerings.”（禁止使用模型或衍生品生成恶意内容、实施网络攻击，或开发与 DeepSeek 核心产品直接竞争的模型）。

DeepSeek的这种许可模式旨在通过“禁止性用途”平衡开放与安全，在“开放”与“责任”之间找到平衡点。这既促进了模型的广泛传播，也通过法律手段为潜在风险设置了边界。

四、Grok系列：从全开源到api接口

Grok 系列模型稍微开放策略充满了品牌宣传和商业博弈的色彩，从 Grok-1 到 Grok-Code-Fast-1 和 Grok-4，不同版本的开放方式存在明显差异。

Grok-1：高举“开放”旗帜的基础模型

Grok-1的开放对象是授权的基础架构模型权重和架构。这是一个拥有3140亿参数的混合专家（MoE）模型，但每次仅激活其中25%的权重。xAI为Grok-1选择的许可协议是 Apache 2.0，该协议明确写道：“Permission is hereby granted, free of charge, to any person obtaining a copy... to use, copy, modify, merge, publish, distribute, sublicense, and/or sell copies.”（特此免费授予任何人使用、复制、修改、合并、发布、分发、再许可及销售的权利）。这意味着用户拥有高度自由，包括商用与再分发。

Grok-1 在Apache 2.0下开放的举动被媒体解读为对OpenAI的封闭模式的一种直接回应。xAI既借此履行了“开放”承诺，又保留了对后续更高性能模型的控制。

与 Grok-1 的开放形成了对比，Grok-Code-Fast-1 和 Grok-4 并未以可下载权重形式开放，而是通过API与订阅制提供，收费方式包括按令牌计费和高级订阅（SuperGrok）。这种混合路径既享受了开源带来的社区红利，又通过封闭服务实现商业变现。

五、Qwen与百川：更加开放的姿态

Qwen团队的开放范围极为广泛，涵盖语言模型（Qwen系列）、多模态模型（Qwen-Image, Qwen-VL）和特定领域模型（Qwen-Coder、Qwen-Audio）。他们不仅开放权重，还在GitHub上提供代码库，相关模型和工具链可在阿里云的ModelScope社区获取。

但需要注意，Qwen许可中有一条重要要求：“If you use the output of the Qwen Models to train, fine-tune, or improve another model, you must clearly indicate ‘Built with Qwen’ or ‘Improved using Qwen’ in a prominent place.”（若使用 Qwen 模型输出训练或改进其他模型，须在显著位置标注“Built with Qwen”或“Improved using Qwen”）。这意味着虽然允许蒸馏和再利用，但必须履行署名义务。

百川智能的 Baichuan 2 系列（7B、13B）开放了训练检查点、技术报告和源代码。但需要特别指出，其采用的是 Baichuan Community License，而非 Apache 2.0。该许可对“衍生品”有明确界定：“Model Derivatives include... transferring weights, parameters, activations, or output patterns to another model, including methods that require intermediate representations or synthetic data generated from the Model.”（模型衍生品包括将权重、参数、激活或输出模式转移至其他模型，包括需要中间表示或基于模型生成合成数据训练其他模型的方法）。这意味着蒸馏在百川许可中被视为衍生品，允许使用，但必须遵守条款。

区别于前述单一模型，开源飞桨（PaddlePaddle）是一种独特的“平台级开放”模式。它是一个完整的开源深度学习框架，包含80多个官方模型和200多个预训练模型，覆盖视觉、NLP、语音等领域，提供从训练到推理的全流程工具链。飞桨的战略在于通过平台构建技术黏性，力图成为中国AI基础设施的重要组成部分。

六、深度洞察：大模型“开源”的未来走向

基于上述分析，可以得出以下结论：纯粹的“开源”或“封闭”模式在大模型领域都难以持续。未来的趋势是混合商业模式的必然性。

公司将通过开源基础模型来建立社区和影响力，而通过提供付费API服务、云端部署或订阅制来实现商业价值。这种策略使得公司能够同时享受开源带来的社区红利，又通过封闭服务实现商业变现，将技术研究与商业价值紧密结合。

另外，真正的竞争正在从“开放权重”向“开放生态”演进。未来的竞争将不仅仅是单个模型的性能，而是其背后所支撑的平台、工具链和社区。飞桨的“平台开源”模式，以及DeepSeek通过高效的MoE架构来吸引开发者的策略，都围绕着这一趋势。未来的“开放”将越来越像一个完整的生态系统，而不仅仅是模型的开放。

最后，随着Llama 3.2-Vision、Qwen-Image和Baichuan-Omni-1.5等多模融合模型的出现，未来的开源模型将不再局限于文本，而是会扩展至视觉、音频、工具使用等多种能力，成为真正意义上的“通用智能体”。这将进一步模糊“模型”与“应用”的界限，为开发者和企业带来开源的机遇与挑战。

大模型的艰难抉择大模型的艰难抉择：开源与商用深度调研报告

一、大模型“开源”的几个核心层次

二、Llama系列：排除竞品的“社区式开放”

四、Grok系列：从全开源到api接口

五、Qwen与百川：更加开放的姿态

六、深度洞察：大模型“开源”的未来走向