老美试图用光刻机阻挡我国发展高端人工智能芯片,北京大学孙仲团队突然扔出了一颗“王炸”。

北大的这款“高精度模拟矩阵计算芯片”,不是对现有芯片的小修小补,而是直接掀了数字计算统治几十年的桌子。要搞懂它有多牛,咱们得从数字芯片有多“笨”说起。

数字芯片有个致命的“bug”,算1+1都要绕十万八千里。

首先把十进制的“1”翻译成二进制的“1”,再调动专门的加法电路,让两个“1”进行逻辑运算,最后再把二进制的结果“10”翻译回十进制的“2”。整个过程要动用几十个甚至上百个晶体管。

更要命的是“冯·诺依曼瓶颈”。数字芯片的计算单元和存储单元是分开的,就像一个厨师(计算单元)和一个仓库(存储单元),每次都得先跑到仓库拿食材,再送到厨房里做菜。AI大模型训练时要处理海量数据,相当于厨师每秒要往返仓库几十万次,大部分时间都浪费在路上,算力自然提不上来。

为了提高算力,人们就不断缩小晶体管的尺寸,从14纳米到7纳米,再到5纳米、3纳米,晶体管越做越小,单位面积里能塞的晶体管就越多,算力也就越强。

老美就拿着一点来卡我们的脖子。7纳米以下的先进制程晶体管,必须用ASML公司的EUV光刻机制造,美国就禁止ASML公司卖给我们。

就在老美以为这一招能卡死我们的时候,北大孙仲团队遵照教员“你打你的,我打我的”的战略思想,掉头走了另一“土”路。既然数字计算这么绕,那我们为啥不回到更古老的“模拟计算”?

模拟计算是被数字时代抛弃的“老土”,它比数字计算的历史更久。它的逻辑特别简单:不用0和1,直接用物理量做计算。

孙仲教授打了个特别形象的比方:“父母教孩子1+1=2,不会说什么二进制,而是拿一根筷子加一根筷子,这就是模拟计算的思维。”

在模拟芯片里,电压、电流这些连续变化的物理量,本身就是数字。比如5伏电压代表数字5,10毫安电流代表数字10,加法就是两个电流汇合,总电流就是它们的和;乘法就是利用欧姆定律,电压乘以电流得到功率,直接就能算出结果。

这种计算方式,完全跳过了“翻译”和“数据搬运”的步骤,就像厨师把仓库直接搬到了厨房,伸手就能拿到食材,做菜效率自然翻倍。理论上,模拟计算的速度和能效比,天生就比数字计算高几个量级。

那为啥后来模拟计算被淘汰了?答案就两个字:不准。

模拟计算就像用尺子量长度,虽然快,但容易受温度、电压波动的影响,误差可能达到1%。别小看这1%,算简单的加减法还行,要是算财务报表、工程设计,或者AI模型的精确训练,误差会越积越大,最后得出的结果可能完全错误。

而数字计算虽然绕,但精度极高,误差能控制在千万分之一以下。在“快”和“准”之间,人类选择了“准”,数字计算也就顺理成章地统治了世界。

这一统治,就是半个多世纪。期间也有不少科学家想复活模拟计算,但都卡在了“精度”这个死结上。直到北大孙仲团队解开这个困扰行业百年的难题。

孙仲团队的核心任务,就是给模拟计算“校准”——既要保留它“快如闪电”的优势,又要让它达到数字计算的精度。这事儿说起来容易,做起来比登天还难。就像要把一个粗犷的壮汉,训练成能绣出清明上河图的绣娘,不仅要改习惯,还得重构底层逻辑。

孙仲在意大利做博士后时,就在研究这个问题。北大团队又花了数年时间,从器件、电路、算法三个层面,打出了一套“组合拳”,硬生生把模拟计算的精度从1%的误差,提升到了24位定点精度,相当于把误差直接降到了千万分之一,比顶级数字芯片还准!

模拟计算要精准,首先得有靠谱的“计算材料”。孙仲团队选用了一种黑科技材料——阻变存储器(RRAM) ,这玩意儿的电阻值能通过电压自由调节,就像一块可以随意改变重量的魔法石头。

阻变存储器的工作原理特别有意思:在两个电极之间夹一层金属氧化物,施加正向电压,氧化物里就会形成一根“导电细丝”,让电阻变小(低阻状态);施加反向电压,这根细丝就会断裂,电阻又会变大(高阻状态)。这两种状态既能代表0和1,用来存储数据,又能通过调节阻值大小,模拟不同的数字,直接参与计算。

更牛的是,它能实现“存算一体”。数字芯片是“计算和存储分开”,而阻变存储器既是仓库又是厨房,数据存在这里,直接就能原地计算,完全不用来回搬运。这就像把手边的食材直接放在炒锅里,开火就能炒,省去了所有中间环节。

而且这种器件不用专门建生产线,现有的成熟工艺就能搞定。

有了好材料,还得有好设计。孙仲团队的第二个核心突破,是原创了一种特殊的电路,能“一步到位”求解矩阵方程。

矩阵方程是啥?简单说,就是AI训练、信号处理、机器人运动规划这些高端场景的“核心考题”。数字芯片解这类方程,得一步步迭代计算,比如解一个128×128的矩阵,数字芯片要算128×128×128=2,097,152步,而孙仲团队的模拟电路,直接利用物理定律,一步就能算出结果。比数字芯片快100倍。

如果说器件是“硬件基础”,电路是“核心框架”,那算法就是“画龙点睛”的一笔。要达到24位的高精度,光靠硬件还不够,还得用算法“抠细节”。

北大团队创造出“迭代优化算法”。孙仲教授把它比作“在山谷里找最低点”:先用低精度电路快速找到山谷的大致位置(误差约1%),再用高精度乘法器精准定位最低点的坐标,经过几次迭代,就能把误差降到千万分之一以下。这种方法比数字芯片常用的“梯度下降法”高效得多,既能保证速度,又能保证精度。

就是这“器件+电路+算法”的三层突破,让模拟计算从“糙汉子”变成了“小天才”。实验数据显示,顶级GPU干1000分钟的活,北大这款模拟芯片1分钟就能搞定,而且电费只花对方的百分之一。

这款芯片最让国人振奋的,还不是算力和能耗的优势,而是它完美绕开了“卡脖子”的光刻机。

北大的模拟芯片根本不需要7纳米以下先进制程,它用28纳米的成熟工艺就能量产。我国的中芯国际、华虹半导体早就掌握了相关技术。

这不是“弯道超车”,而是直接开辟了一条全新的赛道——你在你的赛道上卷光刻机,我在我的赛道上搞模拟计算,最后我还比你跑得更快、更省劲。

就像当年爱迪生发明直流电后,大家都在卷直流电的传输距离,而特斯拉却直接搞出了交流电,彻底改变了电力行业的格局。现在孙仲团队做的,就是芯片界的“特斯拉时刻”。