来源:十字路口Crossing
DeepSeek 的产品发布策略一项是低调而沉默的。
甚至此次深夜的发布,DeepSeek 从 V3 升级至DeepSeek-V3-0324这样重大的迭代,DeepSeek 官方都未在 X 平台发布任何官方推文。
但是,这款模型在各种数学和编程上的专项任务突破却又引起全网一片热论,在 Hugging Face 上,短短十几个小时内就已然获得 700 赞。
甚至有 X 网友@JeffreyJonah5 评论称:‘它已是最好的”非推理“模型。’
因为,它的性能甚至要直追几乎是 AI 编程模型唯一可用的 Claude 3.7 Sonnet。
而且,它还是开源的(Hugging Face 开源链接[1]),很难想象它后续在开源开发社群会产生怎样的影响力。
这回 DeepSeek-V3 的更新暂未推出模型卡,无法从 DeepSeek 官方层面一窥详细模型细节。
⭐️ 5 大核心优势
⭐️
但是,各大 IDE 厂商作为部署最快的人,自然是进行了最速测评。
我这里整理了下 DeepSeek-V3-0324 相较于前一版本的关键改进,5 大核心优势:
-
DeepSeek-V3-0324 采用专家混合(MoE)架构,拥有685B参数;
-
专家数量增加 60%,从 160 个增至 256 个;
-
前端编码能力增强;
-
使用 FP8 训练将计算效率提高一倍;
-
针对数学和推理的训练后优化。
模型专家数量的提升,表明 DeepSeek-V3-0324 在专家混合(MoE)架构下的任务分工更加精细。
这种改进增强了模型对多样化任务的处理能力,尤其是在需要高度专业化的场景中表现将更为惊人。
最值得注意的一点是:DeepSeek-V3-0324 采用 FP8 混合精度训练,计算效率直接翻倍了。
在模型迭代更新放慢的今年年初,这一资源调优简直又给本地部署者打了一剂强心针。
在模型迭代更新节奏放缓的 2025 年初,再度给了基础模型研究者方向 :AI GPU 很重要,但调优说不定更重要。对于数学和推理上的训练优化,就很直观了。