国产AI

Kimi K2.5 深度解读

月之暗面最新大模型评测。

Kimi

# Kimi K2.5 深度解读:月之暗面最新大模型到底强在哪?

月之暗面(Moonshot AI)刚刚发布了 Kimi K2.5,这是他们迄今为止最强大的开源模型。在 Hacker News 上获得了 205+ 的热度,开发者社区讨论得沸沸扬扬。

Kimi K2.5 不是一次简单的迭代升级——它是一个原生多模态智能体模型,在 Kimi-K2-Base 基础上使用约 15 万亿混合视觉和文本 token 进行持续预训练。更重要的是,它完全开源,权重已经放在了 Hugging Face 上。

这篇文章会帮你全面了解 K2.5 的架构亮点、基准测试表现、与主流模型的对比,以及国内用户如何直接使用。

模型概览

规格详情
架构混合专家模型(MoE)
总参数量1 万亿(1T)
激活参数量320 亿(32B)
层数61 层(含 1 层 Dense 层)
专家数量384
每 Token 激活专家数8
共享专家1
注意力机制MLA(多头潜在注意力)
上下文长度256K tokens
词表大小160K
视觉编码器MoonViT(4 亿参数)
激活函数SwiGLU

虽然总参数量达到 1 万亿,但 MoE 架构意味着每次推理只激活 320 亿参数。这让你获得前沿级别的性能,但推理成本远低于同等规模的 Dense 模型。

三大核心能力

一、原生多模态

和那些"先训练文本模型再接上视觉能力"的方案不同,Kimi K2.5 从预训练阶段就融合了视觉和语言 token。这种原生方式带来了:

  • 视觉知识理解 —— 解读图表、图形、复杂视觉数据
  • 跨模态推理 —— 将视觉信息和文本分析联系起来
  • 基于视觉输入的工具调用 —— "看到"什么就能做什么

自研的 MoonViT 视觉编码器(4 亿参数)专为这种深度融合设计。从 OCRBench(92.3)、MathVista(90.1)、InfoVQA(92.6)等基准测试来看,效果非常突出。

二、视觉编码能力

这是 K2.5 真正让开发者兴奋的地方:

  • 从 UI 设计稿直接生成代码 —— 给它一张设计图,它写出实现代码
  • 理解视频工作流 —— 看懂多步骤的视觉指令并转换为代码
  • 自主编排工具 —— 处理视觉数据时自动调用合适的工具

对开发者来说,这意味着你可以截图一个 UI 设计,直接让 K2.5 帮你实现。SWE-Bench Verified 得分 76.8,和 GPT-5.2(80.0)及 Claude 4.5 Opus(80.9)处于同一梯队。

三、Agent Swarm(多智能体协作)

这是最具前瞻性的功能。K2.5 从单智能体执行升级为自主协调的"蜂群"式执行模式

  • 将复杂任务分解为可并行的子任务
  • 动态生成特定领域的子智能体
  • 协调多个智能体实例的执行

用 BrowseComp 基准测试来说明:

  • 标准模式:60.6
  • 加上上下文管理:74.9
  • 使用 Agent Swarm:78.4

这不是噱头,而是质的飞跃。Agent Swarm 代表了一种全新的复杂任务执行范式。

基准测试全面对比

以下所有数据来自月之暗面官方评测,K2.5 均使用 Thinking 模式。

推理与知识

基准测试Kimi K2.5GPT-5.2 (xhigh)Claude 4.5 OpusGemini 3 ProDeepSeek V3.2
HLE-Full30.134.530.837.525.1
HLE-Full (带工具)50.245.543.245.840.8
AIME 202596.110092.895.093.1
HMMT 2025 (Feb)95.499.492.997.392.5
GPQA-Diamond87.692.487.091.982.4
MMLU-Pro87.186.789.390.185.0

重点关注: K2.5 在"带工具的 HLE"上以 50.2 的成绩打败了所有对手,这个指标衡量的是借助工具进行实际问题解决的能力。在纯数学推理(AIME、HMMT)上,GPT-5.2 领先,但 K2.5 的表现已经非常出色。

视觉与多模态

基准测试Kimi K2.5GPT-5.2Claude 4.5 OpusGemini 3 Pro
MMMU-Pro78.579.574.081.0
MathVision84.283.077.186.1
MathVista (mini)90.182.880.289.8
OCRBench92.380.786.590.3
OmniDocBench 1.588.885.787.788.5
InfoVQA (val)92.684.076.957.2
SimpleVQA71.255.869.769.7
WorldVQA46.328.036.847.4
VideoMMMU86.685.984.487.6
LongVideoBench79.876.567.277.7
LVBench75.9--73.5

这是 K2.5 真正碾压对手的领域。 OCRBench 92.3 vs GPT-5.2 的 80.7,InfoVQA 92.6 vs GPT-5.2 的 84.0——差距巨大。对于做文档理解、图表分析、OCR 提取的团队来说,K2.5 可以说是目前最好的选择。

视频理解也很强:VideoMMMU 86.6、LongVideoBench 79.8、LVBench 75.9,均是同类最优或接近最优水平。

编码能力

基准测试Kimi K2.5GPT-5.2Claude 4.5 OpusGemini 3 ProDeepSeek V3.2
SWE-Bench Verified76.880.080.976.273.1
SWE-Bench Pro50.755.655.4--
SWE-Bench 多语言73.072.077.565.070.2
LiveCodeBench (v6)85.0-82.287.483.3
PaperBench63.563.772.9-47.1

编码能力稳居第一梯队。SWE-Bench Multilingual 73.0 超过了 GPT-5.2 的 72.0。LiveCodeBench 85.0 也是非常高的水平。不过在 SWE-Bench Verified 上,Claude 4.5 Opus 和 GPT-5.2 还是略有领先。

智能体搜索

基准测试Kimi K2.5GPT-5.2Claude 4.5 OpusGemini 3 Pro
BrowseComp60.665.837.037.8
BrowseComp (Agent Swarm)78.4---
WideSearch (Agent Swarm)79.0---
DeepSearchQA77.171.376.163.2
Seal-057.445.047.745.5

Agent Swarm 模式下的表现是独家优势(其他模型不支持这种范式)。DeepSearchQA 和 Seal-0 两项指标上,K2.5 均超越了所有对手,包括 GPT-5.2。这说明月之暗面在智能体搜索能力上确实有独到的技术积累。

月之暗面公司背景

月之暗面(Moonshot AI)成立于 2023 年,创始人杨植麟是知名的 AI 研究者,此前在卡内基梅隆大学和 Google Brain 工作。

融资情况

  • B 轮融资:约 10 亿美元,是中国最受资本看好的 AI 创业公司之一
  • 投资方包括国内外知名风险投资机构

产品矩阵

月之暗面的旗舰产品是 Kimi 智能助手,目前产品线包括:

  • Kimi 对话 —— 日常 AI 对话助手
  • 深度研究(Deep Research) —— 自动化研究报告生成
  • Agent Swarm(Beta) —— 多智能体协作任务
  • 文档/幻灯片/表格处理 —— 办公生产力工具
  • 网页生成 —— 直接生成网站

国内用户如何使用 Kimi K2.5

方式一:直接访问 kimi.com(推荐)

国内用户最方便的方式是直接访问 [kimi.com](https://www.kimi.com)(原 kimi.moonshot.cn 已跳转至新域名)。

平台支持:

  • 即时模式和思考模式切换
  • 网页浏览和搜索
  • 文档上传和理解(支持超长文档)
  • 代码执行
  • 深度研究
  • Agent Swarm(Beta 测试中)

基本功能免费使用,有使用量限制。付费版解锁更多额度。

方式二:API 调用

通过 [platform.moonshot.ai](https://platform.moonshot.ai) 获取 API Key,支持 OpenAI/Anthropic 兼容格式:

import openai

client = openai.OpenAI(

api_key="你的-api-key",

base_url="https://api.moonshot.ai/v1"

)

response = client.chat.completions.create(

model="kimi-k2.5",

messages=[

{"role": "user", "content": "分析这张图表并解释趋势"}

]

)

方式三:本地部署(开源)

K2.5 完全开源,权重在 [Hugging Face](https://huggingface.co/moonshotai/Kimi-K2.5) 上提供下载。

支持的推理引擎:

  • vLLMSGLang
  • KTransformers
  • 支持原生 INT4 量化,降低显存需求
  • 最低 `transformers` 版本要求:4.57.1

推荐参数设置:

  • Thinking 模式:temperature = 1.0,top_p = 0.95
  • Instant 模式:temperature = 0.6,top_p = 0.95

⚠️ 注意:完整的 1T 参数模型即使用 INT4 量化也需要多张高端 GPU(总显存超过 200GB)。对大多数用户来说,直接用 kimi.com 或 API 更实际。

优势与不足

优势

视觉能力同类最强 —— OCR、文档理解、视觉问答多项指标第一

完全开源 —— 权重在 Hugging Face 上公开,无限制使用

Agent Swarm 独创 —— 多智能体架构带来可衡量的性能提升

256K 超长上下文 —— 比大多数竞品的 128K 多一倍

高效 MoE 架构 —— 1T 参数但每次只激活 32B,兼顾能力和成本

智能体搜索领先 —— DeepSearchQA 和 Seal-0 打败 GPT-5.2

中文原生支持 —— 国内用户直接用 kimi.com,体验流畅

不足

纯数学推理稍弱 —— AIME 和 HMMT 上落后于 GPT-5.2

编码不是最强 —— SWE-Bench 上 Claude 4.5 Opus 和 GPT-5.2 略有优势

本地部署门槛高 —— 1T 参数需要多张顶级 GPU

生态成熟度 —— 第三方集成不如 OpenAI 和 Anthropic 丰富

适合谁用?

  • 文档处理团队:OCR 和文档理解得分无人能敌
  • 需要开源权重的研究者:完整的前沿模型免费使用
  • 构建智能体系统的公司:Agent Swarm 是差异化优势
  • 中文用户:原生中文理解 + kimi.com 直接使用
  • 视觉密集型应用:图表分析、视觉问答、视频理解

总结

Kimi K2.5 是一个真正令人印象深刻的模型。它在多个重要领域与 GPT-5.2、Claude 4.5 Opus、Gemini 3 Pro 正面竞争,并且在视觉理解、文档处理、智能体搜索等方面取得了领先

最关键的是——它完全开源。你可以自行部署一个前沿级别的多模态模型,还带有 Agent Swarm 功能。这在一年前是不可想象的。

它是不是综合最强的模型?还不完全是——GPT-5.2 在纯推理上仍然领先,Claude 4.5 Opus 在编码上略有优势。但 K2.5 毫无疑问处于第一梯队,其在视觉和智能体方面的独特优势让它成为特定场景下的最佳选择。

评分:4.5/5 —— 一个开源的前沿模型,原生多模态,Agent Swarm 创新突出。纯数学和编码上的小差距使其未能获得满分。

---

常见问题(FAQ)

1. Kimi K2.5 是免费的吗?

是的,Kimi K2.5 完全开源,可以在 Hugging Face 上免费下载并自行部署。kimi.com 平台也提供免费使用(有额度限制),API 通过 platform.moonshot.ai 提供付费服务。

2. Kimi K2.5 和 GPT-5.2 相比怎么样?

K2.5 在多个视觉基准测试上超过 GPT-5.2(OCRBench:92.3 vs 80.7,InfoVQA:92.6 vs 84.0),在智能体搜索任务上也领先(DeepSearchQA:77.1 vs 71.3)。GPT-5.2 在纯数学推理上更强(AIME 2025:100 vs 96.1)。总体来说两者能力非常接近。

3. 普通用户能在本地跑 Kimi K2.5 吗?

技术上可以——模型是开源的。但完整的 1T 参数模型即使用 INT4 量化也需要 200GB+ 的 GPU 显存(通常需要多张 A100/H100)。对大多数用户来说,直接使用 kimi.com 或 API 更现实。

4. Agent Swarm 和普通 AI 智能体有什么区别?

传统 AI 智能体以单个实例顺序执行任务。Agent Swarm 将复杂任务分解为并行子任务,动态创建专门的子智能体来处理每个子任务。效果提升非常明显——BrowseComp 得分从 60.6(单智能体)跳升到 78.4(Agent Swarm)。

5. Kimi K2.5 支持视频理解吗?

支持。K2.5 在 VideoMMMU 上得分 86.6,在 LongVideoBench 上得分 79.8,均处于同类最优水平。视频对话功能目前通过官方 API 支持,第三方部署的视频支持仍在实验阶段。

发现更多 AI 工具

浏览我们的 AI 工具目录,找到最适合你的工具。

浏览工具目录