DEEPSEEK · DEVDAY

01 / 14

DeepSeek dev day · keynote

DeepSeek
V4

开源 · 600B 参数 · 多模态 · 推理速度 3x

DEEPSEEK · DEVDAY

02 / 14

一句话结论

V4 在 6 项基准上超过 GPT-5，
训练成本仅 1/10。

DEEPSEEK · DEVDAY

03 / 14

关键数据

参数规模

推理加速

代码任务

0/10

训练成本

DEEPSEEK · DEVDAY

04 / 14

三大支柱

模型

MoE 架构 · 670B 总参数 · 37B 激活

训练

FP4 精度训练，成本降 90%

推理

自研 KV cache 压缩，速度提升 3 倍

DEEPSEEK · DEVDAY

05 / 14

基准测试 / 6 大项

V4 vs GPT-5 vs Claude 4 评分

MMLU-Pro

92.4%

GPQA

78.9%

HumanEval

98.4%

MATH

94.2%

AIME

88.7%

LiveBench

86.3%

DEEPSEEK · DEVDAY

06 / 14

观点

"开源不是商业策略，
是我们对 AI 应该如何发展的判断。"

— 梁文锋 · DeepSeek 创始人

DEEPSEEK · DEVDAY

07 / 14

全方位对比

V4 vs 全球前沿模型

模型	参数	上下文	训练成本	开源
DeepSeek V4	600B / 37B	256k	$5.6M	✓ MIT
GPT-5	≈ 1.5T	400k	≈ $60M	✗
Claude 4 Opus	≈ 800B	200k	≈ $40M	✗
Gemini 2.5 Pro	≈ 1.2T	2M	≈ $50M	✗
Llama 4 405B	405B	128k	$28M	✓ 限制

DEEPSEEK · DEVDAY

08 / 14

成本曲线

训练 1B 参数美元成本演进

DEEPSEEK · DEVDAY

09 / 14

开源 vs 闭源

开源路线 (DeepSeek)

成本 $5.6M

600B MoE + FP4 训练 + 全栈优化。模型权重 MIT 协议开放，推理框架同步开源。社区贡献者 1200+。

闭源路线 (GPT-5)

成本 $60M

1.5T 密集架构 + FP16 训练 + 闭源工具链。API 调用收费，禁止模型蒸馏。商业用户 800k+。

DEEPSEEK · DEVDAY

10 / 14

4 个开源风险

诚实告诉社区

安全微调可被绕过

任何开源模型都面临 jailbreak 风险，需要社区一起 patch

算力门槛

600B 推理需 8×H100，普通开发者难以本地运行

商业模式

开源后我们如何赚钱？答：API + 企业部署 + 咨询

地缘政治

中美关系恶化时，开源模型可能被列入出口管制

DEEPSEEK · DEVDAY

11 / 14

V 系列演进

4 个版本，3 年

2023-12

V1 发布

7B 模型，对标 Llama 2，开源圈关注

2024-12

V2 发布

236B MoE，首次进入全球第一梯队

2025-06

V3 发布

671B MoE，HumanEval 超过 GPT-4o

2026-05

V4 发布

600B MoE + 多模态，全面超越

DEEPSEEK · DEVDAY

12 / 14

建议

开发者怎么用

→试用：api.deepseek.com 免费 100 万 tokens
→部署：8×H100 本地，社区已有 vLLM / SGLang 适配
→贡献：GitHub 开源仓库，issue / PR 都欢迎

DEEPSEEK · DEVDAY

13 / 14

下一步

模型已发布。代码已开源。等你来玩。

github.com/deepseek-ai/DeepSeek-V4 · MIT License

DEEPSEEK · DEVDAY

14 / 14

来源 · 致谢

数据与方法

DeepSeek V4 技术报告 (arxiv 2026.05)
基准测试：MMLU / GPQA / HumanEval 等公开数据集
训练成本：DeepSeek 官方披露 + AI Index 2026 报告
对比模型数据：各家官方公告（截至 2026.06）

DeepSeekV4

V4 在 6 项基准上超过 GPT-5，训练成本仅 1/10。

模型

训练

推理

V4 vs GPT-5 vs Claude 4 评分

V4 vs 全球前沿模型

训练 1B 参数美元成本演进

成本 $5.6M

成本 $60M

诚实告诉社区

安全微调可被绕过

算力门槛

商业模式

地缘政治

4 个版本，3 年

V1 发布

V2 发布

V3 发布

V4 发布

开发者怎么用

模型已发布。代码已开源。等你来玩。

数据与方法

DeepSeek
V4

V4 在 6 项基准上超过 GPT-5，
训练成本仅 1/10。