硅谷不再迷信 GPT-5:阿里千问正在隐形渗透全球产业链

2025-12-30 14:40·ZFinance

在科技史的演进中,有些转折点是悄无声息的。但2025年岁末,美国《连线》杂志的一篇头条报道,却给这种转折定下了响亮的基调。

《连线》是全球顶级科技媒体之一,《失控》作者凯文·凯利是该杂志创始主编。那篇文章名为:《再见,GPT-5。你好,千问 Qwen》。《连线》的视角转变极具象征意义。过去三年,全球科技媒体的镁光灯始终聚焦在OpenAI所代表的智力高点上。然而,到了2026年,这种单一的叙事逻辑失效了。

为什么强如GPT-5、Gemini 3,在2026年的产业语境下却显得有些“落寞”?

深层原因在于,AI产业已经走过了“造神”的初级阶段,正式进入了实用主义主导的实证时代。一个核心矛盾开始显现:通用大模型的智力提升正在进入边际效应递减期,而全球企业对于“低成本、定制化、私有化部署”的需求却在呈指数级爆发。

追赶 Benchmark 视为核心业务的公司,注定做不出下一代 AI

在2025年之前,全球大模型的竞争更像是一场数字奥林匹克。全行业的目光高度聚焦于 MMLU、GSM8K 或 HumanEval 等学术榜单,试图在小数点的博弈中定义领先地位。然而步入2026年,这场单纯的智力竞赛正悄然退场。即便如 GPT-5 这样在2025年横空出世、将快慢思考与幻觉控制推向新高度的顶级模型,也没能再引发往日那种狂热。学界与产业界表现出了一种前所未有的冷静。

正如 OpenAI 首席研究官 Mark Chen所言:“那些将追赶 Benchmark 视为核心业务的公司,注定做不出下一代 AI。”虽然通过小幅更新能在几周内暂时领跑,但这会使组织陷入一种“短期反射”:被竞品的发布节奏、榜单的起伏以及外界的叙事牵着鼻子走,从而丧失对底层创新的定力。

产业界冷静的背后,是对 ROI(投入产出比)的实实在在考量。AI 发展的“S型曲线”已从陡峭的爆发期步入增速放缓的平台期。单纯依靠堆叠参数和算力换取的边际性能提升,在复杂的工业场景中已难以转化为同等的商业回报。对于多数企业而言,为了追求最后 1% 的逻辑精度而支付数倍的部署成本,显然违背了基本的商业逻辑。

这种“务实主义”已直接转化为全球开发者的脚投票。Hugging Face 监测数据显示,2025年7月成为一个历史性拐点:中国开源模型的全球下载量份额首次反超美国,其中阿里巴巴的千问系列长期蝉联榜首。在第三方聚合 API 平台 OpenRouter 上,千问3 的调用量一度冲至全球第四。而就在一年前,千问 还仅次于 Llama 和 Mistral,位列全球开源第三。

全球生态重构,大教堂模式逐渐谢幕

2026年,全球AI生态正在上演一场足以载入史册的哲学对决:一方是坚守封闭、昂贵且追求极致完美的大教堂模式(以GPT为代表),另一方则是充满活力、快速进化且全面开放的集市模式(以千问为代表)。

早在二十多年前,埃里克·雷蒙德就在《大教堂与集市》中预言:少数精英在封闭环境下构建的宏伟建筑,终将被全球开发者共同浇筑的集市所取代。这一预言在 AI 领域沉寂二十年后,终于在 2025 年迎来了迟到的爆发。GPT-5 发布后的落寞,本质上源于其依然维持着大教堂式的孤傲——黑盒化的机制、高昂的 API 成本以及模糊的数据主权,让深处数字化转型深水区的企业开始退缩。

相比之下,千问所代表的开源力量正展现出一种生物进化般的生存韧性。这种韧性,连硅谷都开始感到焦虑。 Databricks联合创始人Andy Konwinski直言,当全球最顶尖的开发者不再围着OpenAI转,而是基于千问底座进行二次创作时,那种集体进化的复利效应太恐怖了。

当权利回归开发者,AI就不再是科技图腾,而是生产资料。 在2026年的NeurIPS顶会上,阿里千问拿下最佳论文,全场几百篇学术论文几乎清一色采用千问作为底座。全球AI的创新策源地,正在发生战略性漂移。

这种重构不仅影响了软件开发者,更直接重塑了算力与应用的分配逻辑。随着千问 API调用量稳居全球第四,它所构建的不再是一个孤立的API接口,而是一套覆盖了从云端算力调度到边缘侧设备执行的完整协议栈。

这一仗,千问不是在追赶,而是在完成一次对全球AI底层逻辑的隐形渗透。

2026主战场,AI在车间的最后一公里决定胜负

如果说AI的2025年还属于聊天机器人的“言语游戏”,那么2026年的胜负手则彻底从云端服务器转移到了工厂的车间、繁忙的码头以及每一个用户的口袋里。

这种跃迁最直观的体现,是 AI 与硬件逻辑的深度重塑。

在智能出行赛道,比亚迪等巨头早已不满足于只会讲笑话的语音助手,而是将 千问 作为车载系统的底层架构。从自动驾驶的决策辅助,到座舱全场景的交互闭环,AI 正成为汽车的新大脑。

在 Rokid 等 AR 眼镜的生态里,开发者利用千问对端侧算力的极致优化,让设备彻底摆脱了对云端算力的“脐带式依赖”。AI 不再是虚无缥缈的云端接口,而是真正能干脏活、累活的“实体生产力”。

国际巨头的动作,则从侧面揭示了一个半公开的秘密,技术栈正在发生隐形交替。

从英伟达的高性能算力调度方案,到 AI 搜索新贵 Perplexity 的底层逻辑,甚至 Airbnb 在处理全球海量非标住宿数据时,都不约而同地集成了千问的 API 或蒸馏版本。

这不是简单的商业采购,而是抗风险属性和协议适配性的胜利。甚至在硅谷圈子里,大家都在传:Meta 为了优化 Llama 的性能,正大量蒸馏千问 的技术精华。这意味着,中国开源模型已经从单纯的参与者,变成了底层标准的定义者。

吴恩达曾多次预言,AI 的真正红利,不在于通用大模型本身,而在于支撑数以万计垂直行业的能力底座。当汽车产业巨头、芯片巨头和AI搜索新规都选择了同一个底座上时。2026 年的产业主战场,其实已经提前完成了权力的交割。

2026,AI进入实证时代

我们正在亲历一个旧时代的落幕。那个由天价融资、算力参数和智力垄断堆砌起来的英雄史诗已经翻篇。取而代之的,是一个 AI 像电力一样无处不在、随手可得的平流层。

当潮水退去,那些能够穿过云端、扎根泥土的模型,最终成为了支撑起智能化时代的钢筋与骨架。2026,主战场见。

信息来源:

[1] https://www.wired.com/story/expired-tired-wired-gpt-5/

---------END--------

DeepSeek V4爆春节登场!四大杀招突袭全球编程王座,Claude危

2026年01月10日 09:15 新智元

Information爆料称,DeepSeek将计划在2月中旬,也正是春节前后,正式发布下一代V4模型。

而这一次,所有目光都聚焦在同一维度上——编程能力。

目标:编程之王。

据称,DeepSeek V4编程实力可以赶超Claude、GPT系列等顶尖闭源模型。

要知道,如今Claude是全网公认的编程王者,真要击败了它,那可真不是小事儿。

毫无疑问,V4是继去年12月V3的重大迭代版,但内部测试者普遍反馈:

这不是一次常规的升级,而是一次质的跨越。

复刻R1春节核爆,全网期待值拉满

此次发布时间的选择,同样意味深长。

还记得,去年1月20日,恰逢春节前夕,DeepSeek R1重磅出世,在全网掀起了巨震。

R1的上线,最终被证明是教科书级的节奏:讨论密度、传播强度、社区反馈,全部被拉到了峰值。

或许这一次,DeepSeek希望再次复刻这种「时间窗口效应」。

回看过去一年,DeepSeek的发展轨迹,其实已经给出一条清晰的叙事线:

DeepSeek V3崭露头角,让国际开发者第一次正眼看这个来自中国的团队。

DeepSeek R1才是真正引爆的那个点。

一款开源「推理」模型,把「先思考、再作答」变成显性过程,用相对克制的训练成本,实现了复杂问题上的惊人稳定性。

这种「性价比反差」,直接击中了硅谷最敏感的那根神经。

随后,DeepSeek在国内,推出了由R1+V3加持的聊天应用,短时间内成为了现象级应用。

接下来的一年中,DeepSeek进行了多次模型版本迭代,比如V3.1、V3.2,智能体能力植入等等。

进入2025年,开源早已成为整个行业最大共识。

中国大厂与初创公司密集发布和开源,中国AI的存在感被整体抬升了一个量级,被视为全球开源AI领导力量之一。

上个月,DeepSeek V3.2出世,在部分基准测试上碾压GPT-5、Gemini 3.0 Pro。

这是DeepSeek在一直未推出真正意义上的重大换代模型的情况下,实现的反超。

也正因如此,V4被赋予了比以往任何一次迭代都更高的期待。

剑指编程王座,四大突破曝光

从目前流出的信息来看,DeepSeek V4在以下四个关键方向上,实现了核心突破,或将改变游戏规则。

编程能力:剑指Claude王座

2025开年,Claude一夜之间成为公认的编程之王。无论是代码生成、调试还是重构,几乎没有对手。

但现在,这个格局可能要变了。

知情人士透露,DeepSeek内部的初步基准测试显示,V4在编程任务上的表现已经超越了目前的主流模型,包括Claude系列、GPT系列。

如果消息属实,DeepSeek将从追赶者一步跃升为领跑者——至少在编程这个AI应用最核心的赛道上。

超长上下文代码处理:工程师的终极利器

V4的另一个技术突破在于,处理和解析极长代码提示词的能力。

对于日常写几十行代码的用户来说,这可能感知不强。但对于真正在大型项目中工作的软件工程师来说,这是一个革命性的能力。

想象一下:你有一个几万行代码的项目,你需要AI理解整个代码库的上下文,然后在正确的位置插入新功能、修复bug或者进行重构。以前的模型往往会忘记之前的代码,或者在长上下文中迷失方向。

V4在这个维度上取得了技术突破,能够一次性理解更庞大的代码库上下文。

这对于企业级开发来说,是真正的生产力革命。

算法提升,不易出现衰减

据透露,V4在训练过程的各个阶段,对数据模式的理解能力也得到了提升,并且不容易出现衰减。

AI训练需要模型从海量数据集中反复学习,但学到的模式/特征可能会在多轮训练中逐渐衰减。

通常来说,拥有大量AI芯片储备的开发者可以通过增加训练轮次来缓解这一问题。

推理能力提升:更严密、更可靠

知情人士还透露了一个关键细节:用户会发现V4的输出在逻辑上更加严密和清晰。

这不是一个小改进。这意味着模型在整个训练流程中对数据模式的理解能力有了质的提升,而且更重要的是——性能没有出现退化。

在AI模型的世界里,没有退化是一个非常高的评价。很多模型在提升某些能力时,会不可避免地牺牲其他维度的表现。

V4似乎找到了一个更优的平衡点。

最近一周,CEO梁文锋参与合著的一篇论文,也透露出一些线索:

他们提出了一种全新的训练架构,在无需按比例增加芯片数量的情况下,可以Scaling更大规模的模型。

论文地址:https://arxiv.org/pdf/2512.24880

技术溯源

从V3到V4,DeepSeek做对了什么?

要理解V4可能有多强,我们需要先回顾DeepSeek过去一年的技术积淀。

MoE架构:用更少的计算做更多的事

DeepSeek-V3的核心技术优势在于其创新的MoE(混合专家)架构。

V3拥有高达6710亿的总参数,但推理时每个token只激活约370亿参数。

这种稀疏激活机制让模型在保持超大规模的同时,维持了极高的推理效率。

更重要的是,DeepSeek改进了传统MoE模型的训练方法,采用「细粒度专家+通才专家」的策略——使用大量小型专家而非少数大型专家,更好地逼近连续的多维知识空间。

MLA:让推理更快、更省内存

另一个关键技术是MLA(多头潜在注意力)机制。

这项技术从V2就开始引入,通过将键(Key)和值(Value)张量压缩到低维空间,大幅减少推理时的KV缓存和内存占用。

研究表明,MLA在建模性能上优于传统的分组查询注意力(GQA),这是DeepSeek能够在有限硬件条件下实现高性能的关键。

R1强化学习经验

2025年1月发布的DeepSeek-R1是一个由强化学习驱动的推理模型,其核心技术后来被融合到了更新版的V3中。

这里有一个关键信息:V4很可能继承了R1在强化学习方面的所有优化经验。

如果说V3是「基础能力」,R1是「推理能力」,那么V4很可能是两者的完美融合——基础能力+强化学习优化+编程专项突破。

而且不要忘了刚刚发布的新论文mHC。

mHC:解决大模型训练的根本性约束

就在2025年12月31日,也就是V4爆料前不久,DeepSeek悄悄发布了一篇重磅论文:《mHC:Manifold-Constrained Hyper-Connections》(流形约束超连接)。

这篇论文解决了一个困扰AI行业十年之久的难题:大模型训练的不稳定性问题。

核心思想是什么?

在传统的神经网络训练中,信号在层与层之间传递时会出现放大效应——在不受约束的情况下,信号可能被放大3000倍。

这种失控的放大会导致训练崩溃、梯度爆炸等一系列问题,是阻碍大模型规模化的根本性瓶颈之一。

mHC的解决方案是:利用Sinkhorn-Knopp算法,将神经网络的连接矩阵投影到一个数学流形上,从而精确控制信号放大。结果:信号放大被压缩到仅1.6倍。

实际效果有多强?

- 在BIG-BenchHard推理基准上提升了2.1%

- 仅增加6.7%的训练开销

- 在高达270亿参数的模型上得到验证

业内专家评价:这项研究可能重塑整个行业构建基础模型的方式。它解决了一个限制大语言模型架构创新的根本性约束。

可以看出,DeepSeek一直在进行底层算法优化、数学工程优化,但不要忘了更重要的一件事:  

这些优化都是在「限制之下」完成的,这也正是DeepSeek的厉害之处。

硬件限制下的算法突破

这才是真正的故事

在讨论V4时,有一个背景不能忽视:芯片出口限制。

外媒的报道特别提到,尽管面临芯片出口限制,DeepSeek依然在算法效率上取得了进展。这与其V3/R1系列的高性价比路线一致。

还记得V3的训练成本吗?约557.6万美元。

这个数字在当时震惊了整个AI行业,因为它远低于其他同级别模型——OpenAI和Google的训练成本往往是这个数字的几十倍。

DeepSeek用更少的资源做出更好的模型,这不是偶然,而是算法、框架和硬件协同优化的结果。

V4很可能延续这一路线:不拼硬件数量,而是拼算法效率。

如果V4真的在受限硬件条件下实现了超越Claude的编程能力,这将是一个极具象征意义的里程碑——

证明在AI竞赛中,聪明的算法可以弥补硬件的不足。

悬念:V4还会有哪些惊喜?

根据目前的信息,我们已经知道V4在编程能力、长上下文处理、推理严密性三个维度上有显著提升。

但DeepSeek向来有低调憋大招的传统。

以下是几个值得关注的悬念:

1.是否会有蒸馏版本?

DeepSeek-R1发布时,同时推出了一系列蒸馏版本,让更多用户可以在消费级硬件上体验强化学习推理模型。

V4是否会延续这一策略?

2.多模态能力如何?

目前的报道主要聚焦于编程能力,但V4在多模态(图像、音频等)方面是否有提升?这是一个未知数。

3.API定价会有惊喜吗?

DeepSeek一直走极致性价比路线。

如果V4的编程能力真的超越Claude,但价格只有Claude的几分之一,那将是对整个市场的巨大冲击。

4.开源策略会变吗?

V3和R1都在MIT许可下开源。

V4是否会延续这一策略?V5、V6呢,DeepSeek会一直开源下去吗?

考虑到编程领域的商业价值,这是一个值得观察的变量。

LMArena上的神秘身影:V4已经在野测了?

如果说以上都是内部消息,那么有一个线索可能暗示V4比我们想象的更接近:

有用户在LMArena(大模型竞技场)上发现了匿名模型,据说就是V4。

有人已经在LMArena上发现匿名模型,据说就是V4。

但由于模型会「撒谎」,还无法最终确认。

这是一个值得密切关注的信号。

如果The Information的报道属实,那么我们只需要再等不到一个月的时间。

届时,它是否能真正超越Claude成为编程之王?

敬请期待。