DeepSeek驱动行业智变提速,腾讯云汇聚大咖共话进阶之路
DeepSeek以迅雷之势席卷全球,并以实战为突破点,推动AI 技术在实际应用中的深刻变革。我们站在这个新起点上,远眺 AI 技术落地最汹涌的浪潮。各行各业正积极探索如何利用DeepSeek等前沿AI技术实现业务创新。在众多AI技术和应用中,找到那些真正具有颠覆性和引领性的方向,并实现切实可行的落地应用,已成为企业当前关键的战略思考。
3月22日,由腾讯云架构师技术同盟与腾讯云 TVP 联合主办的「DeepSeek实战驱动行业智变——腾讯云架构师技术沙龙」成功举办。本次活动邀请到AI领域的大咖分享DeepSeek落地案例的宝贵经验,共同探寻AI技术赋能业务智能化变革的进阶路径。
在主题演讲环节中,CSDN高级副总裁、全球机器学习技术大会主席 李建忠发表题为《DeepSeek创新驱动的AI应用寒武纪》的报告,介绍 DeepSeeK 的关键技术创新、对AI生态的深远影响、AI 产品的范式转换立方体以及 AI Agent智能体应用爆发寒武纪。
李建忠表示,DeepSeeK 的关键技术创新有以下方面:
1、开源强化学习引领推理计算范式转换
DeepSeek R1 基于强化学习和 Self-play实现推理的Scaling Law,隐式思维链使模型学会中间过程的推理路径。DeepSeek 的出现,将大模型从预训练阶段的“统计学习” ,转变为推理阶段的“探索创新” ,完成了从“快思考”到“慢思考” 的飞跃。
2、MLA和MoE等引领大模型架构创新
DeepSeeK在基于Transformer架构的基础上进行多项优化,例如MLA用于高效推理,显著降低推理显存的消耗。MOE用于高效训练,其由多个专家模型组成,通过部分激活给定任务所需的特定专家,而不是激活整个神经网络,从而降低计算消耗。DeepSeek使用高难度的256个路由专家和1个共享专家,并创新的采用冗余专家,来实现负载均衡策略和训练目标。
3、“贴身定制”的软硬协同工程优化
DeepSeeK 从计算、存储、通信等多个层面实施了软硬协同的工程优化策略。面对算力限制,DeepSeeK采取了一系列措施,如混合精度训练、跨节点通信优化、双流水线机制、DualPipe算法等,以实现高性能计算。李建忠表示,如果DeepSeek成为开源大模型领域的标配后,有机会通过“软件定义硬件”或者说 “模型定义硬件”来倒逼硬件厂商,走出一条颠覆英伟达CUDA生态的道路。
接着,李建忠探讨DeepSeeK对AI生态系统的重要意义。一是随着DeepSeeK大幅降低大模型的成本,推理和搜索的成本已接近甚至低于传统搜索引擎,这为AI应用的大规模普及创造条件,将迎来“寒武纪”式AI应用爆发。二是DeepSeek从 “训练”和“推理”重塑算力生态,AI产业版图有望重塑。三是开源长期主义是创新摇篮,DeepSeeK从第一天就拥抱开源。这种开放的态度赢得全球开发者的广泛支持,越来越多的开发者和企业开始拥抱DeepSeeK的开源解决方案。
针对AI产品的范式转换,李建忠创新提出“范式转换立方体”概念,该理论基于X轴(技术)、Y轴(需求)和Z轴(模态)。X轴涵盖计算和技术的发展阶段;Y轴关注人类的核心需求领域,如信息、娱乐、搜索、社交及商业;Z轴则代表了不同模态的变化,从文本到图片、音频、视频等。通过这三个维度的交叉分析,可以发现创新机会点。
随着AI智能体的兴起,技术正从信息网络向行动网络转变。智能体通过强大的推理、规划和执行能力,不仅弥补了大模型的不足,还实现主动交互,如自动安排会议和预订机票,这里需要多智能体的协作,而不是全由一个模型来完成。未来互联网将更多服务于智能体,可能需要改变搜索、广告、电商等模式,使其更适应智能体的需求,进而重构整个互联网架构和商业模式。因此李建忠表示,未来的产品,将从面向“人类”的需求, 转变为面向“智能体”的需求。