精选推荐

从语言模型到智能体，Kimi K2 的方式是否更合理？简单聊聊

月之暗面最近发布了 Kimi K2，一个 1 万亿参数的 MoE 架构模型，开源并可商用。在现在这个“大模型满天飞”的环境下，这可能很容易被忽略。但如果你对近半年 AI 的技术走向有所关注，尤其是对 Agent 的技术演进有点了解，那你会意识到：Kimi K2 有点不一样。

简单说，它不是在卷 token 数，也不是跑分比谁高一丢丢，而是一个很早期但方向明确的尝试——训练一个从架构和任务层面就为“做事”而不是“说话”设计的模型。

这个模型的关键意义不在于它是不是领先，而在于它从一开始就把智能体作为基本前提来设计。这点在开源圈里，目前是少有的。

它的 MoE 架构，不只是为了省钱

Kimi K2 是一个典型的 MoE（Mixture-of-Experts）模型，参数总量 1 万亿，推理时只激活 320 亿。这种做法不少模型都在用，原因很简单：MoE 能让模型参数“虚胖”但推理时不那么费资源。

但 Kimi K2 的 MoE 使用方式里，有一个值得注意的倾向：它在为未来的“能力模块化”做准备。

在一个偏智能体的系统里，我们很可能需要模型拥有不同功能模块，比如搜索、工具调用、记忆恢复、代码理解等，而 MoE 的专家机制天然就是一个调度结构——可以按需激活子模块。这一点上，Kimi K2 的 MoE 架构比大多数基于稠密 Transformer 的模型要更适合做智能体中控，或者更准确地说，更容易演化成可调度、可拆分的能力堆栈。

这并不是说它现在就已经具备这些功能，而是它在架构层面，为这条路径留了口子。

它的训练方式，是“任务导向”，不是语言导向

从训练流程来看，Kimi K2 分成了三个阶段：

大规模预训练：标准做法，用万亿级 token 覆盖通用语言知识。

指令微调 + 工具使用数据：在这个阶段，模型不再只是预测下一个词，而是要理解任务目标、规划执行路径、补全结构化调用。这不是单纯的语言能力训练，更接近任务建模。

上下文记忆与状态建模：这是偏 Agent 的典型训练方式，目标是让模型能识别任务历史、保留中间变量、处理超长上下文，实际就是在训练“模型能不能跟住任务链”。

这套路径其实和 OpenAI 对 GPT-4 的强化方式很接近，只是 Moonshot 把它放进了开源模型里，并没有绕过训练过程靠后处理模板来模拟 Agent 行为。

这点是关键的分水岭。它不等于说 Kimi K2 就具备了完整的 Agent 能力，但它说明 Moonshot 是在让模型去学怎么做任务，而不是怎么说得更顺。

不是惊艳，但系统性还不错

从目前能看到的公开指标来看，Kimi K2 在中文通识任务、数学题、代码生成、工具使用等方面的能力是均衡的，没有特别亮眼的地方，也没有明显短板。

有两个点相对突出：

一个是工具调用能力，能理解结构化调用意图，在 prompt 足够清晰的前提下，具备规划和执行链式操作的能力；