当我们说一个 AI 模型“学到了东西”,究竟是什么意思?这个问题听起来有点哲学,但它正在成为机器学习研究中一个越来越紧迫的技术命题。
2026 年 1 月初,来自美国卡内基梅隆大学和纽约大学的联合团队发布了一篇题为《从熵到上褶度:为计算受限智能重新思考信息》(From Entropy to Epiplexity: Rethinking Information for Computationally Bounded Intelligence)的论文,团队耗时两年进行研究,提出了一个名为“epiplexity”(上褶度,或可译为“认知复杂度”,epi 表“上层”,plexity 与 complex/perplexity 同源,指向“复杂性”)的新概念,试图从根本上回答这个问题,论文发布后迅速在设计媒体上引发了讨论。
图丨相关论文(来源:arXiv)
日前,相关论文发表于预印本平台 arXiv,卡内基梅隆大学博士后 Marc Finzi、博士生 Yiding jiang 与纽约大学博士生裘释凯(Shikai Qiu)共同担任第一作者。
(来源:GitHub)
这篇论文的核心论点是:我们长期以来用于衡量信息的经典工具香农熵(Shannon entropy)和柯尔莫哥洛夫复杂度(Kolmogorov complexity)在面对现代机器学习时表现得捉襟见肘。这些框架隐含地假设观察者拥有无限的计算能力,但现实中的学习系统,无论是人脑还是 GPU 集群,都在有限的计算预算下运作。当我们忽视这一点时,理论与实践之间就会出现令人困惑的裂痕。
图丨随机信息与结构性信息示意图(来源:arXiv)
研究团队列举了三个“信息论悖论”,用以说明现有理论框架的局限性。
第一个悖论涉及信息守恒:根据数据处理不等式(Data Processing Inequality),确定性变换不能增加信息量。然而 AlphaZero 仅从围棋规则这一极其简短的程序出发就学会了超越人类的策略,最终模型参数规模却相当大。这些“额外的信息”从何而来?
第二个悖论关乎顺序:香农信息论告诉我们,先观察 X 再观察 Y 与先 Y 后 X 得到的总信息量相同,即 H(Y|X)+H(X)=H(X|Y)+H(Y)。但大量实验表明,大语言模型在正向阅读英文时的压缩效果明显优于逆向阅读,数据的呈现顺序确实影响学习效果。
第三个悖论则触及似然建模的本质:最大化似然被认为等同于匹配数据分布,因此模型不可能学到比数据生成过程更复杂的东西。但研究者们发现,在康威生命游戏这样的系统中,计算受限的模型为了做出预测,必须学习识别“滑翔机”“振荡器”等涌现结构,而这些概念在原始的局部演化规则中根本不存在。
为了调和这些矛盾,研究者们引入了“时间受限熵”(time-bounded entropy)和“上褶度”(epiplexity)两个概念。其核心定义建立在最小描述长度原则(Minimum Description Length,MDL)之上。
给定一个随机变量 X 和计算时间上界 T,他们首先找到在该时间约束下能最优压缩数据的概率模型:
这里 P_T 表示所有能在时间 T 内完成采样和概率计算的程序集合,|P|是程序 P 的比特长度,E[log 1/P(X)]则是用该模型编码数据所需的期望比特数。找到这个最优模型后,上褶度和时间受限熵分别定义为:
(上褶度,即在给定计算预算下,为了把数据压缩到最好,模型必须“内化”的结构性规律总量)
(时间受限熵,即用最优模型编码数据的期望长度)
用更直白的话说:时间受限熵是“噪声”,上褶度是“信号”,但这里的噪声和信号是相对于特定计算能力而言的。一个密码学安全的伪随机数生成器(Cryptographically Secure Pseudo-Random Number Generator,CSPRNG)对于只有多项式时间计算预算的模型来说就是纯噪声,尽管它在数学上是完全确定的。
图丨如何估计上褶度(来源:arXiv)
论文中证明,对于任何 CSPRNG 输出,其时间受限熵接近最大值 n 比特,而上褶度则接近常数,这与我们的直觉完全吻合。
“信息取决于观察者”这个想法在密码学中其实早有根基。单向函数(正向计算容易、逆向计算难),正是现代密码体系的基石。但将这一思想系统性地引入机器学习的理论框架,并给出可操作的度量方法,是这篇论文的贡献所在。
研究者们提出了两种估算上褶度的实用方法。第一种叫预序编码(prequential coding),其核心思想可以用训练损失曲线来理解:
这个公式的含义是:用模型在第 i 步的损失减去最终收敛后的损失,然后对所有训练步骤求和。如果你画出训练损失曲线,这就是曲线与最终水平线之间的面积。损失下降得越多、持续得越久,面积就越大,意味着模型“吸收”了越多的结构性信息。
第二种方法叫请求编码(requential coding),通过教师-学生蒸馏过程中的 KL 散度累积来给出更严格的上界,计算成本更高但理论上更可靠。
论文中的实验涵盖了从元胞自动机到国际象棋再到自然语言的多种数据类型。团队首先用初等元胞自动机(Elementary Cellular Automaton,ECA)做了一组对比实验,ECA 的规则一共有 256 种,研究者挑了三种代表性的来测试。
规则 15 产生简单周期图案,模型很快学会预测,上褶度很低;规则 30 产生混沌输出,模型永远无法做出有效预测,时间受限熵极高但上褶度几乎为零;规则 54 则处于“复杂性边缘”,产生部分可预测的涌现结构,上褶度随计算预算增加而稳步上升。这也和此前耶鲁大学团队提出的“混沌边缘智能”(Intelligence at the Edge of Chaos)的研究方向形成了呼应,最有价值的学习信号,或许恰恰藏在有序与混沌的交界地带。
图丨用元胞自动机创建的信息(来源:arXiv)
在国际象棋数据上,研究者们比较了两种格式:先给出棋步序列再给出最终局面,与先给出局面再给出棋步。前者类似于“正向”计算,从走法推导局面是简单的规则应用;后者则类似于“逆向”推理,从局面反推走法需要更复杂的理解。
实验表明,后者虽然训练损失更高,但上褶度也更高,而且在下游任务(如国际象棋谜题求解和局面评估)上表现更好。这说明更难学习的数据呈现方式可能反而能迫使模型习得更丰富的局面表征,这些表征更容易迁移到需要理解局面的 OOD(Out-of-Distribution Generalization,分布外泛化)任务上。
论文中可能最有现实启发的一点,是它在同一算力条件下对比了不同数据模态的“可学结构”。在相同的计算预算下,OpenWebText 文本数据的上褶度显著高于 Lichess 国际象棋数据,而后者又高于 CIFAR-5M 图像数据。图像数据的总信息量(按原始字节计)最大,但超过 99% 都是“时间受限熵”,即像素级的不可预测噪声。
图丨上褶度揭示了不同数据模态中的结构信息差异(来源:arXiv)
这或许解释了一个长期困扰研究者的现象:为什么在文本上预训练能带来广泛的能力迁移,而在图像上预训练却不然?因为文本包含更多可学习的结构性信息,这些信息被编码进模型权重后可以在新任务中复用。
论文还探讨了“归纳”(induction)和“涌现”(emergence)两类现象如何产生超出数据生成过程的上褶度。
关于归纳,研究者们援引了 Ilya Sutskever 的一个经典思想实验:当你读一本侦探小说,在某个时刻文本揭示了凶手的身份。如果模型能预测出这个名字,它就必须从前文的线索中推断出答案。但小说作者并不需要做这种推理,她可能先决定谁是凶手,然后编织一个自圆其说的故事。因此,预测模型被迫学习的推理能力,可能根本不存在于数据的生成过程中。
图丨通过上褶度研究归纳(来源:arXiv)
关于涌现,康威生命游戏提供了一个很好的说明。游戏规则可以用几十个字节描述,一个计算能力无限的观察者只需逐步执行规则就能完美预测。
但计算受限的观察者无力进行这种暴力模拟,必须学习识别和追踪涌现结构,比如滑翔机的运动轨迹、不同“物种”的碰撞规则等,才能做出有效预测。这种被迫习得的高层抽象,正是上褶度试图捕捉的东西。
论文中的一个实验显示,当计算预算足够大以至于模型可以“循环展开”(类似于思维链推理)来模拟游戏规则时,上褶度反而会骤降,因为此时简单的暴力解法变得可行,复杂的涌现知识不再必要。
不过要注意的是,上褶度是一个理论上定义清晰、但实践中只能近似估计的量。论文承认,由于只能在有限的超参数空间中搜索,估计值可能与真实值存在系统性偏差。此外,高上褶度并不保证在特定下游任务上表现更好,它度量的是结构性信息的总量,而非与特定任务的相关性。一个模型可能学到了大量结构,但这些结构未必对你关心的任务有用。
但总体而言,这篇论文代表了机器学习理论的一个转向:从关注模型选择转向关注数据选择。经典学习理论将训练分布视为给定,优化目标放在模型架构和正则化上。但在预训练时代,模型架构趋于同质化,数据质量和组成反而成为决定性因素。上褶度提供了一个不依赖于特定下游任务的数据价值度量,这对于合成数据生成、数据配比优化、课程学习等方向都有潜在的指导意义。
香农信息论诞生于通信时代,其核心关切是信息的表征和传输,计算过程被抽象掉了。但学习,无论是生物的还是人工的,本质上是计算过程。什么能被学到,取决于可用的计算资源。上褶度的提出,是朝着将计算约束纳入信息论框架的一次认真尝试。它未必是最终答案,但它提出了正确的问题。
参考资料:
1.https://arxiv.org/pdf/2601.03220
2.https://x.com/m_finzi/status/2008934727156453661
运营/排版:何晨龙