这项由上海人工智能实验室的马仁、裘建涛、徐超等十多位研究人员共同完成的重大突破性研究,发表于2025年11月的arXiv预印本平台,论文编号为arXiv:2511.16397v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

想象你正在筹备一场盛大的晚宴,需要从杂乱无章的菜市场中挑选最新鲜、最优质的食材。传统的做法就像闭着眼睛随手抓取,往往会把烂菜叶、泥土甚至包装纸一起带回家。而上海人工智能实验室的研究团队,就像是训练有素的顶级厨师,他们开发出了一套精妙的"食材筛选系统",能够从互联网这个巨大菜市场中,精准地挑选出最适合人工智能"食用"的优质内容。

这套被称为MinerU-HTML的神奇工具,解决了一个困扰整个人工智能界的重大难题:如何从杂乱无章的网页中提取出干净、有用的文本内容。就像从一锅混合了各种杂质的汤中,完美分离出纯净的高汤一样困难。以往的方法就像用粗糙的筛子过汤,不仅会漏掉很多精华,还可能把不该要的杂质一起留下。

研究团队的突破在于,他们不再依赖传统的"死板规则",而是训练了一个只有0.6亿参数的小巧"美食鉴定师"——一个专门的语言模型。这位数字鉴定师就像经验丰富的老厨师,能够准确判断网页中哪些内容是"主菜"(真正有价值的文章内容),哪些是"餐具包装"(导航菜单、广告、页脚等无关信息)。

更令人惊叹的是,这套系统在处理复杂的技术内容时表现尤为出色。传统方法处理数学公式时,就像把精美的艺术品当作废纸撕碎;处理代码时,就像把精心编排的乐谱弄得面目全非;处理表格时,就像把整理好的账本打散重排。而MinerU-HTML系统却能像文物修复专家一样,完美保持这些结构化内容的原貌。

基于这套革命性的提取工具,研究团队构建了一个名为AICC(AI-ready Common Crawl)的超大规模数据集,包含了7.3万亿个词汇单位。这就像建造了一个专门为人工智能定制的超级图书馆,里面的每本书都经过精心筛选和整理,确保人工智能能够高效地学习和理解。

为了验证这套系统的效果,研究团队进行了一场"盲品测试"。他们训练了两组完全相同的人工智能模型,一组使用传统方法提取的数据"食谱",另一组使用他们新方法提取的数据"食谱"。结果显示,食用新"食谱"的人工智能在13项不同的能力测试中,平均表现提升了1.08个百分点,达到50.82%的准确率。这个提升看似微小,但在人工智能领域却意义重大,就像运动员在奥运会上提升0.1秒可能就是金牌与银牌的差别。

这项研究的意义不仅在于技术突破,更在于为整个人工智能社区提供了一套可持续改进的解决方案。传统的规则基础方法就像固定的菜谱,很难根据新情况调整;而基于模型的方法却像一位不断学习的厨师,能够随着经验积累而持续提升技艺。

一、从混乱网页中淘金的艺术

互联网就像一个永无止境的跳蚤市场,里面既有珍贵的古董,也有毫无价值的破烂。对于训练大型语言模型来说,网页内容是最重要的"食材来源",但问题在于这些"食材"往往被包装在复杂的HTML代码中,就像珍贵的松露被埋在泥土里一样。

传统的内容提取工具,比如广泛使用的Trafilatura和Resiliparse,就像使用简单的金属探测器寻宝。它们依靠一些基本的"探测规则":哪里文字密度高就认为是主要内容,哪里链接多就认为是导航区域。这种方法在处理标准网页时还算管用,但面对现代网站复杂多样的设计时,就显得力不从心了。

更糟糕的是,这些传统工具在处理技术性内容时经常"翻车"。数学公式会被拆解得支离破碎,就像把一首优美的诗歌随机打乱字词顺序;代码块会失去原有的缩进和格式,就像把精心排列的多米诺骨牌推倒重摆;表格结构会完全崩溃,就像把井然有序的棋盘变成一堆散乱的棋子。

研究团队深刻意识到,如果人工智能要在科学、技术、工程等专业领域发挥更大作用,就必须能够准确理解和学习这些结构化内容。毕竟,一个不能理解数学公式的人工智能,就像一个不识数的会计师,再聪明也难以胜任专业工作。

这就是MinerU-HTML诞生的背景。研究团队决定彻底改变游戏规则,不再依赖简单的探测规则,而是训练一个专门的"内容鉴别专家"。这个专家不是通过简单的文字密度判断,而是通过理解网页的语义结构来做出判断,就像经验丰富的古董鉴定师不仅看外观,还要理解文物的历史背景和文化价值。

二、智能"食材分拣师"的工作原理

MinerU-HTML的工作流程就像一个经验丰富的厨师在处理复杂食材时的精妙操作。整个过程分为三个关键阶段:预处理、内容分类和后处理,每个阶段都有其独特的"技艺"。

在预处理阶段,系统首先要解决一个关键问题:原始的HTML代码往往冗长复杂,就像一本厚重的菜谱,里面不仅有烹饪步骤,还夹杂着大量装饰性的插图、广告页和无关的附录。直接让人工智能处理这样的"厚书"既费时又容易出错。

研究团队的巧妙之处在于创建了两个并行的"食材单"。第一个是"简化食材单",去除了所有装饰性的HTML标签和属性,只保留最核心的结构信息,就像把复杂的菜谱简化为关键步骤的要点。第二个是"完整食材单",保留了原始的HTML结构,确保最终提取的内容能够完整还原。

这种双重设计的巧妙之处在于,既能让人工智能高效处理简化信息,又能保证最终结果的完整性和准确性。就像一位厨师在快速浏览菜谱要点的同时,随时可以参考完整版本来确保每个细节都不遗漏。

内容分类阶段是整个系统的核心,这里工作的是一个经过特殊训练的0.6亿参数语言模型。不要被"0.6亿"这个数字吓到,在人工智能领域,这算是一个相当紧凑的模型。研究团队故意选择了较小的模型,既能保证分类准确性,又能确保处理速度,就像选择一位技艺精湛但行动敏捷的厨师,而不是动作缓慢的大厨。

这个"分拣师"的工作方式非常有趣。它会逐个检查网页的每个内容块,就像检查每个食材包装一样,判断这是"主菜食材"还是"包装废料"。但与传统方法不同的是,它不仅看表面特征,还会理解内容的语义含义。比如,它能区分出文章正文中的重要段落和侧边栏中的相关链接,即使两者的文字密度相似。

更重要的是,系统采用了"约束解码"技术,确保输出结果严格按照预定格式。这就像给"分拣师"提供了标准化的标签和包装袋,无论遇到什么样的食材,都能用统一的方式进行分类和标记,避免了传统方法中经常出现的格式错误和"胡言乱语"。

在后处理阶段,系统会根据分类结果,从"完整食材单"中选择被标记为"主菜"的内容块,重新组合成干净的HTML文档。这个过程就像按照"分拣师"的指导,从原始食材堆中挑选出合格的食材,重新整理成井然有序的烹饪准备区。

三、规模化处理的巧妙策略

面对Common Crawl这个包含数千亿网页的超级数据库,即使是最高效的处理系统也会遇到计算资源的瓶颈。如果对每个网页都使用GPU运行语言模型进行处理,所需的计算成本将是天文数字,就像要求米其林星级厨师亲自处理菜市场里的每一根胡萝卜一样不现实。

研究团队采用了一个极其巧妙的解决方案:模板化处理策略。他们发现了一个重要规律,就像连锁餐厅使用统一菜谱一样,同一网站的不同页面往往采用相似的HTML模板结构。这意味着,如果能够为一个网站的模板制定好"食材分拣规则",就可以将这个规则应用到该网站的所有其他页面上。

具体操作过程就像训练一支高效的分拣团队。首先,系统会在每个网站集群中选择一个"代表性样品",这个样品要能够涵盖该网站最典型的结构特征。然后,让那位训练有素的"AI分拣师"仔细分析这个样品,制定出详细的分拣规则。

这些规则不是简单的文字描述,而是可以直接执行的XPath和CSS选择器组合。就像制定了一份精确的"食材处理手册",上面详细标注了"保留第三个div标签中的内容"、"删除所有class为advertisement的元素"等具体指令。

一旦规则制定完成,系统就可以用普通的CPU处理器,而不需要昂贵的GPU,来处理该网站的其他所有页面。这种方法的效率提升是惊人的:一个典型的子域名集群包含数千个页面,但只需要对其中一个页面进行AI分析,其余页面都可以通过规则快速处理。

研究团队的统计数据显示,在处理Common Crawl的3000亿个HTML文档时,这种策略产生了大约12亿个不同的集群,意味着只需要对0.4%的页面进行GPU处理,就能实现与逐个处理相同的质量效果。这就像找到了一种"批量生产高品质食材"的方法,既保持了质量标准,又大大降低了成本。

四、内容格式化的两阶段魔法

提取出主要内容只是万里长征的第一步,就像从矿石中提取出了金子,还需要进一步加工成可用的金条。HTML格式虽然保留了内容的结构,但对于训练语言模型来说并不是最佳选择。人工智能更喜欢结构清晰、格式统一的文本,就像厨师更喜欢标准化处理过的食材,而不是带着泥土和枝叶的原始蔬菜。

MinerU-HTML的格式化过程采用了巧妙的两阶段策略。第一阶段是"内容理解与分类",系统会仔细分析HTML中的每个元素,判断它们的语义类型。这个过程就像一位经验丰富的图书管理员,能够准确识别哪些是标题、哪些是正文段落、哪些是代码片段、哪些是数学公式、哪些是表格数据。

系统对不同类型的内容采用了专门的识别策略。对于代码块,它会寻找相邻的代码相关HTML标签,将它们合并成完整的代码段,甚至能够根据语法特征推断编程语言类型。对于数学公式,系统采用了混合识别策略,既能处理MathJax渲染的公式,也能识别KaTeX格式,还能处理直接嵌入的LaTeX代码。

表格处理是一个特别复杂的挑战。系统需要区分简单的数据表格和复杂的布局表格。简单表格会被转换为标准的Markdown表格格式,而复杂表格(包含合并单元格或嵌套结构的)会被保留为HTML格式以维持结构完整性。这种灵活的处理方式确保了各种类型的表格信息都不会丢失。

第二阶段是"格式转换与优化",系统将第一阶段识别出的结构化内容列表转换为Markdown格式。这个过程就像一位翻译专家,将不同"语言"的内容翻译成人工智能最容易理解的"通用语言"。

整个格式化过程的设计理念非常巧妙:既保持了内容的语义完整性,又确保了格式的统一性和可读性。更重要的是,这种中间表示形式为未来的扩展提供了便利,可以轻松支持其他输出格式,也可以根据特定需求进行内容筛选和过滤。

五、性能测试中的惊人表现

为了验证MinerU-HTML的实际效果,研究团队构建了一个名为MainWebBench的专门测试平台,包含7887个经过人工精心标注的网页样本。这个测试平台就像一个标准化考场,每个"考题"都有明确的标准答案,确保评价结果的客观性和可比性。

测试涵盖了各种复杂程度的网页,从简单的博客文章到复杂的学术论文,从普通的新闻页面到充满技术内容的专业网站。更重要的是,测试特别关注了结构化内容的保持效果,包括代码块、数学公式和表格的完整性。

在主要内容提取测试中,MinerU-HTML取得了81.82%的ROUGE-N F1分数,大幅超越了目前最常用的Trafilatura工具的63.58%。这个差距虽然从数字上看似不大,但在实际应用中却意味着巨大的质量提升。就像两位厨师的技艺差别,可能体现在每道菜的细微之处,但累积起来就是完全不同的用餐体验。

在结构化内容保持方面,MinerU-HTML的表现更加出色。对于代码块,它的编辑相似度达到90.93%,而Trafilatura只有13.05%;对于数学公式,MinerU-HTML达到93.99%,Trafilatura为61.07%。这种巨大差距清楚地显示了传统方法的局限性:它们往往会将精心格式化的代码变成杂乱的文本片段,将完整的数学表达式拆解得支离破碎。

研究团队还进行了一项有趣的"盲品测试":他们从Common Crawl中抽取了1万对文档,分别用MinerU-HTML和Trafilatura进行处理,然后让大型语言模型充当"评委",在不知道哪个结果来自哪种方法的情况下进行比较评判。

结果显示,MinerU-HTML在72%的情况下获得了"评委"的青睐。更有趣的发现是,当MinerU-HTML提取的内容比Trafilatura更长时,它在75%-98%的情况下被认为是更好的选择;而当它提取的内容更短时,胜率会下降到25%-49%。这说明MinerU-HTML提取的额外内容确实是有价值的主体内容,而不是无关的噪音信息。

六、真实世界应用效果的验证

理论和测试固然重要,但最终的检验标准是在真实应用中的表现。研究团队进行了一项大规模的语言模型训练实验,这可以说是对MinerU-HTML最严格的"实战考验"。

实验设计非常严谨,就像进行药物临床试验一样控制变量。研究团队使用完全相同的Common Crawl数据源,分别用MinerU-HTML和Trafilatura进行内容提取,然后对两个数据集应用完全相同的后处理流程,包括语言识别、质量过滤、安全过滤和去重处理。这样设计的目的是确保除了提取方法不同外,其他所有因素都保持一致。

最终,AICC数据集包含3720亿个词汇标记,TfCC数据集包含3170亿个词汇标记。研究团队用这两个数据集分别训练了15亿参数的语言模型,训练配置完全相同,都使用了620亿个词汇标记进行训练。

在13个不同的能力测试基准上,使用AICC数据训练的模型平均准确率达到50.82%,而使用TfCC数据训练的模型为49.74%,提升了1.08个百分点。在人工智能领域,这样的提升被认为是非常显著的,因为在如此大规模的数据和复杂的任务上,即使是微小的改进也需要付出巨大的努力。

更令人印象深刻的是,AICC训练的模型不仅超越了基于Trafilatura的对比组,还在多个测试中超过了业界公认的高质量数据集RefinedWeb和FineWeb。特别是在阅读理解任务上,AICC的表现尤为突出,达到42.37%的准确率,显著高于FineWeb的36.68%,提升了5.69个百分点。

这种在阅读理解任务上的突出表现并非偶然。研究团队分析认为,这正得益于MinerU-HTML对文档结构和语义连贯性的出色保持。当原始网页中的逻辑关系、段落层次和上下文连接得到完整保留时,语言模型能够更好地学习文本的内在结构,从而在需要深度理解的任务上表现更佳。

七、技术创新的深远意义

MinerU-HTML的成功不仅仅是一个工具的改进,更代表了人工智能数据处理领域的一次范式转变。传统的基于规则的方法就像手工艺品制作,依靠人工设定的规则和启发式方法,虽然在特定情况下能够工作,但面对复杂多变的现实场景时往往力不从心。

基于模型的方法则像工业化生产,通过机器学习来自动发现和优化处理策略。这种方法最大的优势在于可扩展性和可持续改进性。当出现新的网页设计模式或内容类型时,传统方法需要人工分析和编写新规则,而基于模型的方法可以通过增加训练样本来自动适应。

研究团队特别强调了这种可持续改进的能力。随着更多训练数据的积累和基础模型技术的进步,MinerU-HTML的性能可以持续提升。这就像一位不断学习和成长的专家,经验越丰富,技艺越精湛,而传统的规则方法则像固定的程序,改进空间有限。

从更宏观的角度看,这项研究揭示了一个重要趋势:在大数据时代,数据质量和数据量同样重要,甚至更加重要。过去,人工智能社区主要关注如何获取更多数据,但随着模型规模的增长,数据质量对最终性能的影响变得越来越关键。

AICC数据集的成功证明,通过改进数据提取质量,可以达到与复杂过滤策略相媲美的效果。这为整个行业提供了一个新的思路:与其在后期费力过滤低质量数据,不如在前期就提取高质量内容。这种"源头治理"的思路不仅更高效,也更经济。

八、面向未来的开放共享

研究团队展现出了令人敬佩的开放精神,他们不仅公开发布了MinerU-HTML工具,还释放了完整的AICC数据集和MainWebBench测试平台。这种做法就像开放一座宝库,让全球的研究者都能受益于这项创新成果。

MainWebBench测试平台的开放特别有意义。它不仅为现有方法提供了标准化的评测基准,也为未来的创新提供了比较参照。任何研究团队都可以使用这个平台来测试他们的新方法,推动整个领域的快速发展。

AICC数据集的开放释放更是一份珍贵的礼物。考虑到构建如此规模的高质量数据集需要巨大的计算资源和时间投入,免费开放这样的资源对整个人工智能社区来说价值巨大。特别是对于那些缺乏大量计算资源的研究机构和初创公司,这无疑是一个难得的机遇。

研究团队还特别强调了这项工作的可扩展性。MinerU-HTML的设计不仅适用于HTML内容,其核心思想也可以扩展到其他文档格式的处理,比如PDF、DOC、PowerPoint等。这种通用性设计为未来的发展提供了广阔空间。

更重要的是,研究团队已经在考虑下一步的改进方向。他们提到了JavaScript渲染支持、智能聚类方法优化、更大规模模型验证、多模态内容提取等发展方向。这显示了团队的长远规划和持续创新的决心。

说到底,这项研究的价值不仅在于技术突破本身,更在于它为整个人工智能领域提供了一个新的思考角度:数据提取质量的重要性远超我们之前的认知。当我们把注意力过度集中在模型架构和算法优化时,可能忽略了数据准备这个基础环节的巨大潜力。

MinerU-HTML的成功提醒我们,有时候最大的突破不是来自最复杂的算法,而是来自对基础问题的深入思考和巧妙解决。就像一位优秀的厨师知道,最美味的菜肴往往始于最新鲜的食材和最精心的准备工作。

对于普通人来说,这项研究的意义在于它将推动整个人工智能技术的进步,让我们日常使用的AI助手、搜索引擎、翻译工具等变得更加智能和准确。当人工智能能够更好地理解和处理网络上的复杂信息时,它就能为我们提供更高质量的服务。

归根结底,上海人工智能实验室的这项研究展现了科研工作者的理想状态:不仅要有技术创新,更要有开放共享的胸怀。他们用实际行动诠释了什么是真正的科学精神,那就是让知识造福全人类,让创新成果被更多人享用。当我们看到他们将耗费大量资源构建的数据集无偿开放给全球研究者时,不禁为这种无私的科学精神而感动。

这样的研究不仅推动了技术进步,更重要的是为整个科研社区树立了榜样。在一个知识和技术日益重要的时代,开放合作的精神比任何单项技术成果都更加宝贵。毕竟,科学的真正力量在于分享和传播,只有当创新成果能够被广泛应用和进一步发展时,它才能真正发挥改变世界的力量。

Q&A

Q1:MinerU-HTML是什么工具?

A:MinerU-HTML是上海人工智能实验室开发的一个智能网页内容提取工具,它使用一个0.6亿参数的语言模型来准确识别网页中的主要内容,能够完美保持数学公式、代码块和表格等结构化内容的格式,比传统的Trafilatura等工具效果提升显著。

Q2:AICC数据集有什么特别之处?

A:AICC是基于MinerU-HTML工具从Common Crawl构建的超大规模数据集,包含7.3万亿个词汇标记。它的特别之处在于内容质量极高,特别是技术性内容的完整保存,用这个数据集训练的AI模型在13项测试中比传统方法提升了1.08个百分点。

Q3:普通人如何使用这些研究成果?

A:研究团队已经将MinerU-HTML工具、AICC数据集和测试平台完全开源免费提供。虽然普通用户可能不会直接使用这些工具,但它们会让各种AI应用变得更智能准确,比如搜索引擎、翻译工具、AI助手等日常使用的产品都会因此受益。