DeepSeek的迅速崛起,不仅表明通过算法优化,可取得模型效能和硬体效能之间的平衡点,同时意味著AI发展将以推理应用为方向。
中国新创AI厂商深度求索(Deep Seek)于2023年7月创立起,陆续发表多款大型语言模型(Large Language Model,LLM)后逐渐崭露头角,并基于其模型效能、算法创新、训练成本等优势而备受注目。
2025年1月,DeepSeek宣布推出并开源两款基于V3模型的推理模型——DeepSeek-R1。该模型因与Open Al的o1系列模型效能相当,因而在人工智能领域引起了轩然大波,其在算法上的创新无疑推动AI模型的发展,凸显软件优化的发展方向。
具体来说,V3模型与过往基于Transformer的模型的不同关键在于算法层面的优化调整。V3模型依托 Multi-Head Latent Attention(MLA)技术以及混合专家(Mixture of Experts,MoE)架构,大幅提升了模型的运作效率,使V3模型在实际运行中,不仅成功减少了GPU的使用量,同时还能保持高效能表现。
DeepSeek之所以能脱颖而出,不仅是突破算力限制,在提升模型效能的同时,还实现了效能与成本的精妙平衡。同时也对以往LLM需要大量GPU投入的资本支出模式产生冲击,对其他模型厂商带来了挑战。
从模型应用的角度而言,随着推理模型效能不断提升,将使AI的自主能力逐渐成熟,并推动AI代理(AI Agent)的应用发展。预期AI Agent将作为推理应用的主要形式,并逐步朝向系统性的Agentic AI发展,可望实现更多自动化应用和执行目标导向的工作。
主要章节 ●●
DeepSeek问世,推动AI产业转向推理应用
AI Agent将为推理应用主要形式,并推动Agentic AI发展
2025年LLM发展重点与挑战
拓墣观点
图表资料 ●●
Agentic AI运作模式举要说明
Agentic AI应用类型举要
模型厂商AI Agent产品与策略举要
CONTACT US
联系我们
如需申请拓墣网站会员试用,请联系我们:
深圳·王春胜(Perry Wang)
邮箱:perrywang@trendforce.cn
手机:13825284100(微信同号)
北京·董文 (Sandy)
邮箱:sandydong@trendforce.cn
手机:13901243538(微信同号)