LIMO:少即是多——仅用817个精品样本,大幅提升LLM推理能力
  • 15


今天前后脚看了两篇用精品小数据集大幅提升模型性能的文章。一篇是来自斯坦福的“s1: Simple test-time scaling\”,具体参考:北方的郎:16张H100、26分钟训练1K样本,超越o1! 看s1:简单测试时扩展的威力

另外一篇就是本文介绍的“LIMO: Less is More for Reasoning”。

在人工智能领域,复杂推理能力一直被认为是大型语言模型(LLMs)中最难攻克的难题之一。传统观点认为,要让模型掌握复杂的数学推理,必须依赖海量的训练数据,通常需要数十万甚至更多的样本。然而,最近的一项研究彻底颠覆了这一认知。来自上海交通大学(SJTU)、人工智能研究院(SII)和上海人工智能实验室(GAIR)的研究者们提出了一个令人震惊的发现:仅仅通过817个精心挑选的训练样本,模型就能在复杂的数学推理任务中取得前所未有的表现。这一发现不仅挑战了“数据越多越好”的传统观念,还揭示了模型在推理任务中的潜力——少即是多

LIMO:少即是多——仅用817个精品样本,大幅提升LLM推理能力

论文地址: LIMO: Less is More for Reasoning

GitHub:https://github.com/GAIR-NLP/LIMO

1. 引言

复杂推理能力长期以来被认为是大型语言模型(LLMs)中最具挑战性的能力之一。尽管最近的研究表明,通过相对少量的指令数据,LLMs可以有效地与用户偏好对齐,但教授模型进行数学和编程推理仍然被认为需要大量的训练样本。这种传统观念源于推理任务的复杂性,这些任务通常需要多步逻辑推理、领域知识的应用以及结构化的解决路径。因此,现有的方法通常依赖于数十万甚至上百万的训练样本,基于两个基本假设:首先,掌握复杂的认知过程需要大量的监督演示;其次,监督微调(SFT)主要导致记忆而非真正的泛化。

然而,这种数据密集型的范式不仅带来了巨大的计算成本和数据收集负担,更重要的是,研究者们认为这种范式可能已经不再必要。最近的两项关键进展为重新思考LLMs中的推理方法创造了条件:

  1. 知识基础革命:现代基础模型在预训练阶段已经包含了前所未有的数学内容。例如,Llama 2的总训练数据达到了1.8万亿个token,而Llama 3仅用于数学推理的训练数据就达到了3.7万亿个token。这表明,当代LLMs可能已经在参数空间中嵌入了丰富的数学知识,挑战从知识获取转向了知识激发。
  2. 推理时计算扩展革命:随着扩展长推理链技术的出现,研究者们发现,有效的推理需要在推理时提供足够的计算空间。最近的研究表明,允许模型生成扩展的推理链可以显著提高其推理能力。本质上,推理时的计算为模型提供了一个关键的“认知工作空间”,使其能够系统地展开和应用其预训练的知识。

基于这些进展,研究者们提出了“少即是多推理假设”(Less-Is-More Reasoning Hypothesis)(LIMO Hypothesis):在预训练阶段已经全面编码了领域知识的基础模型中,通过少量但精确组织的认知过程演示,可以激发出复杂的推理能力。这一假设认为,复杂推理的激发阈值并不受目标推理任务的复杂性限制,而是由两个关键因素决定:(1)模型在预训练阶段编码的知识基础的完整性;(2)训练样本的有效性,这些样本作为“认知模板”,展示了如何有效地利用现有知识库解决复杂推理任务。

2. 现象反思:少即是多与强化学习扩展

LIMO的出现标志着我们对大型语言模型中复杂推理能力的理解和激活方式的范式转变。本节通过两个关键对比来阐明这一进展的本质:首先,将LIMO与LIMA进行对比,以理解“少即是多”原则如何从通用对齐扩展到复杂推理;其次,将LIMO与强化学习(RL)扩展方法进行对比,以突出在开发推理能力时的不同哲学视角。

2.1 LIMO vs LIMA

LIMA首次在通用对齐的背景下展示了“少即是多”现象,而将其扩展到复杂数学推理则提出了独特的挑战和要求。LIMO的成功建立在现代基础模型中通过专门预训练嵌入的丰富数学内容之上。这种专门的知识基础是高效推理能力激活的前提。

LIMA的对齐任务可以通过固定长度的生成和单次处理来完成,而LIMO的推理任务则需要大量的计算空间来进行多步推理。推理时扩展技术的出现为模型提供了必要的“认知工作空间”,使其能够系统地展开和应用其预训练的知识。

LIMO的发现反映了这两项革命的必要融合。LIMA和LIMO之间的两年差距不仅仅是等待更好的预训练模型的时间,更是等待推理时计算突破的时间。这种融合使得我们称之为推理激发阈值的现象成为可能:当模型既拥有丰富的领域知识,又具备足够的计算空间时,复杂的推理能力可以通过少量但精确的演示被激活。

2.2 LIMO vs RL扩展

RL扩展方法(如DeepSeek-R1)从工程优化的角度出发,假设推理能力需要通过大规模的强化学习训练到模型中。而LIMO则提出了一个更基础的视角:推理能力已经潜藏在预训练模型中,嵌入在预训练阶段。关键挑战从“训练”转向了“激发”——找到能够激发这些内在能力的精确认知模板。

3. LIMO数据集

为了验证LIMO假设,研究者们提出了一种系统的方法来构建一个高质量、小规模的数据集,以有效激发模型的内在推理能力。

3.1 问题定义

本文专注于具有可验证答案的推理任务。给定一个问题q∈Q,目标是生成一个答案a∈A和一个推理链r∈R。推理链r被定义为一组中间步骤{s1,s2,...,sn},其中每个步骤si代表一个逻辑推理,连接问题和最终答案。

3.2 高质量数据构建

数据构建过程专注于构建一个高质量的数据集 D=(qi,ri,ai)i=1N ,其中N被有意保持较小,以验证LIMO假设。

3.2.1 问题选择

研究者们假设高质量的问题q∈Q应该自然地引发扩展的推理过程。选择标准包括:难度水平通用性知识多样性。通过多阶段过滤过程,最终从数千万个候选问题中筛选出817个精心挑选的问题。

3.2.2 推理链构建

除了高质量的问题,解决方案的质量在训练阶段也起着关键作用。研究者们采用了全面的选择策略,收集了官方解决方案、人类专家和AI专家的解决方案,并利用最先进的推理模型生成多样化的解决方案。通过系统化的过滤和LLM辅助的筛选,最终构建了一个高质量的数据集。

4. 方法论

基于“少即是多”原则,具有丰富推理知识的模型在测试时能够进行长链推理,从而发展出强大的推理能力。通过在仅有的几百个SFT数据实例上进行训练,模型学会了将元推理任务整合到一个连贯的推理链中。

4.1 训练协议

研究者们使用DeepSpeed ZeRO-3优化和FlashAttention-2对Qwen2.5-32B-Instruct进行全参数微调,序列长度限制为16,384个token。

4.2 评估框架

为了全面评估模型在各种推理能力上的表现,研究者们建立了一个多样化的评估框架,包括传统的和新颖的基准测试。主要评估套件包括美国数学邀请赛(AIME24)、MATH500和美国数学竞赛(AMC23)。

为了严格评估模型在分布外(OOD)任务上的表现,研究者们精心选择了与训练数据不同的基准测试。这些基准测试可以分为三类:多样化的数学竞赛新颖的多语言基准测试多学科基准测试

5. 实验

5.1 基线模型

研究者们将LIMO与一组全面的基线模型进行了比较,包括OpenAI-o1-preview、QwQ-32B-Preview和Qwen2.5-32B-Instruct。

5.2 主要结果

实验结果表明,LIMO在域内和域外任务上均表现出色。在AIME24上,LIMO达到了57.1%的准确率,显著优于QwQ-32B-Preview(50.0%)和OpenAI-o1-preview(44.6%)。在MATH500上,LIMO达到了94.8%的准确率,超过了QwQ-32B-Preview(89.8%)和OpenAI-o1-preview(85.5%)。

在域外泛化方面,LIMO在OlympiadBench上达到了66.8%的准确率,显著优于QwQ-32B-Preview(58.5%)和基础模型(45.3%)。在GPQA上,LIMO达到了66.7%的准确率,接近OpenAI-o1-preview的领先分数73.3%。

5.3 分析

5.3.1 推理链质量的影响

研究者们通过控制实验研究了推理链质量对模型性能的影响。结果表明,高质量的推理链显著提高了模型的表现。

5.3.2 问题质量的影响

研究者们假设更具挑战性的问题能够促进复杂的推理链、多样化的思维过程和增强的知识整合。实验结果表明,模型在更具挑战性的数据集上表现出更好的推理能力。

5.3.3 LLM骨干的影响

研究者们通过实验发现,预训练模型的选择对推理性能有显著影响。LIMO基于Qwen2.5-32B-Instruct,显著优于其前身Qwen1.5-32B-Chat。

6. 背景与相关工作

6.1 LLMs中数学推理的演变

大规模训练数据一直是推动LLMs推理能力发展的主要动力。在预训练阶段,通过相关语料库可以增强LLMs的推理能力。在训练后阶段,研究者们专注于通过大规模的指令数据来教授LLMs进行推理。

球盟会APP

6.2 测试时扩展与长链推理

最近的研究从扩展模型参数和训练数据转向了探索测试时扩展,即通过增加token数量来提高性能。这种方法不仅创新了LLMs的训练范式,还提供了一种新的训练数据形式来增强其推理能力。

6.3 语言模型中的数据效率

Zhou等人展示了通过仅1000个精心挑选的提示和响应,模型可以学会遵循特定格式并很好地泛化到未见过的任务。这一发现强调了在对齐过程中质量的重要性。

7. 未来工作

尽管LIMO在数学推理中取得了显著的成功,但仍有许多有前途的方向值得未来探索。这些方向包括领域泛化理论基础自动化评估多模态集成现实世界影响认知科学桥梁


后记:看论文感觉斯坦福的“s1: Simple test-time scaling”和本文的“LIMO: Less is More for Reasoning”两个差别不大。都是精品小数据集大幅提升大模型的推理能力,而且基座模型都是qwen 32b instruct,数据集一个1K、一个817个,提升幅度也大差不差。这种方法真用起来效果如何,会不会是未来趋势?


——完——

@北方的郎 · 专注模型与代码

喜欢的朋友,欢迎赞同、关注、分享三连 ^O^