周城雄(中国科学院科技战略咨询研究院研究员、数智创新与治理研究中心副主任)
2026年1月5日,美国拉斯维加斯CES展会上,英伟达CEO黄仁勋出人意料地提前发布了下一代AI芯片平台“Rubin”,打破其一贯在3月GTC大会集中发布新品的传统。这一举动释放出一个关键信号:全球AI竞赛正从“训练主导”全面转向“推理驱动”,这不仅是技术路线的演进,更是整个AI产业生态、基础设施布局乃至国家间科技竞争格局的重大转折点。
过去数年,大模型训练是AI发展的核心焦点。以GPT、Llama、Claude等为代表的大语言模型(LLM)不断刷新参数规模,对算力的需求呈指数级增长,催生了以英伟达H100、Blackwell为代表的高性能GPU集群建设热潮。然而,训练只是AI生命周期的一环。真正决定AI能否落地、能否创造经济价值的关键,在于推理——即模型在实际应用场景中对用户输入进行实时响应的能力。
推理场景具有高频、低延迟、高并发、成本敏感等特点。例如,一个智能客服系统每天可能处理数百万次用户查询,每一次都需要在毫秒级内完成推理;自动驾驶车辆则需在复杂环境中持续进行多模态推理以保障安全。这些需求对硬件效率、能耗比、系统协同性提出了远高于训练阶段的要求。
英伟达此次发布的Rubin平台,正是为推理时代量身打造。据官方披露,Rubin在推理token成本上最高可降低10倍,同时通过集成CPU、GPU、DPU、SuperNIC、交换芯片等六颗芯片,构建了“极端协同”的全栈系统。尤为关键的是,Rubin同步推出了专为推理设计的“上下文存储平台”,用于高效管理KV Cache(键值缓存),避免重复计算,显著提升推理效率。这表明,AI基础设施的竞争已从单一芯片性能,升级为系统级工程能力的比拼。
Rubin平台等产品的亮相背后,是全球AI发展的“马太效应”正在显现。一方面,拥有强大算力和先进推理系统的国家与企业,将更快实现AI商业化落地,形成数据—模型—应用—收入的正向循环;另一方面,缺乏底层基础设施能力的参与者,将越来越依赖外部平台,陷入“应用繁荣但根基脆弱”的困境。
面对全球AI竞赛向推理阶段的加速演进,对中国AI产业既是挑战也是机遇。尽管近年来中国在大模型研发上取得显著进展,涌现出通义、文心、混元等优秀模型,但在底层硬件和系统级优化方面仍存在一些短板。目前国产GPU如昇腾、寒武纪等取得一定突破,但在软件生态、系统协同、能效比等方面仍需进一步提升。
更重要的是,中国AI产业需要加快形成“芯片+网络+存储+安全+开发框架”的全栈推理解决方案。当前国内AI基础设施在对推理场景的深度优化方面,还有很大的发展潜力。例如,KV Cache管理、动态批处理、模型量化压缩等关键技术尚未在主流国产平台上实现高效集成,若能实现,将有效降低推理成本、推动AI应用的规模化部署。
为此,中国应从三个层面加速准备。首先,强化全栈式AI基础设施研发。不能仅聚焦于GPU性能追赶,而应考虑秉持“协同设计”理念,推动国产CPU、DPU、高速互连、AI原生存储等组件的联合创新。鼓励芯片企业与阿里云、腾讯云、百度智能云等云厂商深度合作,构建自主可控的推理系统栈。
其次,大力发展推理优化技术与开源生态。应支持高校与企业攻关低比特量化、稀疏化推理、动态批处理、缓存复用等核心技术。同时,需推动建立中文AI推理基准测试体系,引导开发者关注推理效率而非仅参数规模;鼓励开源社区围绕国产硬件适配推理框架,降低迁移门槛。
最后,抢占物理AI与边缘推理新赛道。在机器人、自动驾驶、工业智能等新兴领域,中国拥有丰富的应用场景和数据资源。应加快部署面向边缘端的轻量化推理芯片与开发平台,支持具身智能、车路协同等创新应用。通过“场景驱动+技术反哺”的模式,倒逼底层硬件与系统软件的协同进化。
总之,此次CES上,Rubin平台等AI新产品的发布,不仅是技术迭代的里程碑,更是AI产业范式转移的宣言书。当AI从“能回答问题”迈向“能理解世界、规划行动、完成任务”的智能体阶段,推理能力将成为衡量国家AI竞争力的关键指标。对中国而言,这既是挑战,也是弯道超车的机遇。产业界需摒弃“唯训练论”的惯性思维,以系统工程视角重构AI基础设施,才能更好地在推理时代赢得主动权。