来源:元碳院 熊焰
各位专家、各位同仁,下午好!
很高兴和大家交流分享。
新年春节期间DeepSeek异军突起,实际在业内它早以“跨界高手”、“价格鲶鱼”闻名。近期DeepSeek惊艳出圈,全球热榜排名第一,用户数迅速蹿升,完全可能成为全球日活用户第一的大模型,在国内外引发巨大震动,尤其是对美国、中国产业界、资本市场的巨大影响。今天算力网专委会的研讨会很及时,很有针对性。
一、AI中国队的“领跑人”
Deepseek做对了什么?
资源约束下的多快好省,方向明确下的极致优化。
它的几个核心技术,像知识蒸馏、混合专家系统、无监督强化学习、多头潜在注意力、混合精度等等,没有一个是全新的,都是算法软件工具库中已经有的,只不过DeepSeek做了极致的工程与方法论的优化。它的基本逻辑就是在基本不损害性能的前提下,通过极致的算法优化,挖掘和提升了系统的训练和解码效率,大幅度的提升了效率。大概就是一个数量级,提升了10倍左右。现在技术进步趋势,大模型时代的摩尔定律是每年效率大概能提高两倍至四倍,DeepSeek提高了一个数量级,这是比较重大的进展。
客观评价,DeepSeek能力追平了国际领先的大模型,成本展现碾压优势,它是中国版的“AI原子弹”。全球看,第一颗AI原子弹就是ChatGPT,22年11月30日,第二颗就是DeepSeek,25年1月20日,因为它在功能上非常接近于美国领先的ChatGPT4,甚至5.0了。国内外其他的都可以理解为炸弹,不是原子弹。
DeepSeek最重要的价值是打破了美国的AI霸权,在全球范围内增强了中国的科技竞争力,对国内做了一次非常好的AI知识大普及。
它颠覆了国内大模型领域的竞争格局。AI几小龙价估值体系全变了,商业模式必须重新想,单纯卖Tokens不行了。
DeepSeek最大的价值,是更加好用,更加便宜,启动了AI能力、需求体验与成本下降良性互动的飞轮,把大模型的产业落地推到了我们眼前了。
热潮之后也要冷观察。首先,DeepSeek没有颠覆性的技术创新,不是从0~1,它是优化的叠加,工程的极致优化。第二,它没有根本改变中美大模型的博弈格局,美国领跑,中国第二,这个格局没有变。不要因为这一热,就觉得好像什么碾压了,不是那么回事。第三,没有改变基本的科技产业规律,比如摩尔定律、规模定律没有改变。
DeepSeek是典型的中国式多快好省模式,其对应和前提是美国在大模型领域无约束的粗放模式。
应该说DeepSeek自己的商业模式也没想好,无法接受数亿人群的应用。另外,它引致的开源与闭源的争议具有非常长久的影响力。
二、对算力产业的影响
首先,总体算力需求不会降低,只会持续增加。人类科技史上的一系列的创新,大幅度的降低成本之后,需求不但没有降低,反而由于降低成本,应用迅速扩大了,这就所谓杰文斯悖论。
对于智能算力的需求,我们要把它放在人工智能时代的基础设施高度来思考,AI作为通用技术,将重构所有产业,赋能所有产业,智能算力必将持续、大幅度的增加。放在中美博弈大格局下来思考算力,美国的5000亿美元的星际之门,欧洲2000亿欧元的算力计划目标明确。美国的算力限制只会增强不会减弱,这将对中国未来的整个算力市场的格局产生极为严重的影响。按等效A100计算,目前美国年产GPU约500万块,80%留在美国,约10%流到中国(在美国加紧制裁背景下大概率会减少),双方存在明显差距。如果考虑国产算力迅速增加因素,中国算力产业也要一以贯之,大力发展。
我们要把预训练、精调和推理分开观察和研究,因为这三种情况的供给方、需求方与产业生态完全不一样,把它们混到一起无助于事。
AGI、ASI突破在即,他们能且只能在全球顶级的超级算计算集群中练出来。中国一定要有自己的通用基础大模型,就是刚才张云泉理事长说的“主权大模型”肯定要有。它的预训练一定要走中国自己的创新之路,最起码不能指望还是人家练出来,我们跟着。因此10万卡集群应该说迫在眉睫。
如果由于有了DeepSeek,中国的10万卡集群就不要做了,就是对事件的应激反应,那就是近视眼,可能贻误大局。只有10万卡超级集群才能练出中国通用基础大模型,中国应该在集中力量办大事上要有定力,不要被冲击给自己冲晕了。
DeepSeek带来的大模型功能的显著提高,成本的数量级的下降,必将带来行业应用的大爆发。咱们算力网专委会,应该观察的真正意义的规模化典型应用是什么?大模型的“微信”、“小红书”现象级的突破是什么?
从投资逻辑去讲,首先的产业领域突破,大概要符合这么三个特征:第一个,超级复杂,复杂到人类脑力所不能及;第二个,用上大模型有降本增效的明显提高,至少要翻一倍;第三个,要有钱要有支付能力。这么三个维度判断,大约是金融、大健康、自动驾驶、机器人这几个领域有可能会突破。
另外一个,突破的载体可能就是智能体Agent,若干个行业应用的Agent可能会率先突破。
行业模型的精调的核心门槛是易用性与国产化。
三、算力自由的实践
算力自由是我们创立的一个算力交易服务平台,得到了鹏城实验室和算力网专委会的大力支持,现在算力自由平台已经全面接入了DeepSeek,直接使用或APP调用,从7b、32b、70b到671b,而且国产异构算力的使用也在开发了。
我们现在比较关注的一个事,几个政府部门跟央企明确提出要求,DeepSeek671b的满血模型加上升腾910B等国产算力,这两者的叠加,既有复杂场景的需求,也有满足信创的需求。我们团队在认真做,估计一两个月就会交付一两个板本。
也希望能够我们共同来聚焦思考中国的DeepSeek典型应用到底在哪?我们算力网在什么事情上为政府提供一些建议,为行业发出呼声。
谢谢!
(本文是作者2025年2月15日在中国信息协会算力网专委会研讨会的发言)