DeepSeek dev day · keynote
DeepSeek
V4
开源 · 600B 参数 · 多模态 · 推理速度 3x
开源 · 600B 参数 · 多模态 · 推理速度 3x
MoE 架构 · 670B 总参数 · 37B 激活
FP4 精度训练,成本降 90%
自研 KV cache 压缩,速度提升 3 倍
"开源不是商业策略,
是我们对 AI 应该如何发展的判断。"
| 模型 | 参数 | 上下文 | 训练成本 | 开源 |
|---|---|---|---|---|
| DeepSeek V4 | 600B / 37B | 256k | $5.6M | ✓ MIT |
| GPT-5 | ≈ 1.5T | 400k | ≈ $60M | ✗ |
| Claude 4 Opus | ≈ 800B | 200k | ≈ $40M | ✗ |
| Gemini 2.5 Pro | ≈ 1.2T | 2M | ≈ $50M | ✗ |
| Llama 4 405B | 405B | 128k | $28M | ✓ 限制 |
600B MoE + FP4 训练 + 全栈优化。模型权重 MIT 协议开放,推理框架同步开源。社区贡献者 1200+。
1.5T 密集架构 + FP16 训练 + 闭源工具链。API 调用收费,禁止模型蒸馏。商业用户 800k+。
任何开源模型都面临 jailbreak 风险,需要社区一起 patch
600B 推理需 8×H100,普通开发者难以本地运行
开源后我们如何赚钱?答:API + 企业部署 + 咨询
中美关系恶化时,开源模型可能被列入出口管制
7B 模型,对标 Llama 2,开源圈关注
236B MoE,首次进入全球第一梯队
671B MoE,HumanEval 超过 GPT-4o
600B MoE + 多模态,全面超越
github.com/deepseek-ai/DeepSeek-V4 · MIT License