欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 科技 > 名人名企 > SMART:大模型在关键推理步骤辅导小模型,在保持高推理效率的同时,显著提升小模型的推理能力!!

SMART:大模型在关键推理步骤辅导小模型,在保持高推理效率的同时,显著提升小模型的推理能力!!

2025/5/19 20:22:25 来源:https://blog.csdn.net/m0_58581576/article/details/147567360  浏览:    关键词:SMART:大模型在关键推理步骤辅导小模型,在保持高推理效率的同时,显著提升小模型的推理能力!!

摘要:小型语言模型(SLM)的推理能力有限,这使得人们对其是否适合需要深度、多步骤逻辑推理的任务产生了怀疑。本文介绍了一种名为“小理由,大提示”(SMART)的框架,该框架通过从大型语言模型(LLM)中选择性地提供针对性指导来增强SLM的推理能力。SMART受到认知脚手架概念的启发,通过基于评分的评估来识别不确定的推理步骤,并且只在必要时注入由LLM生成的纠正性推理内容。通过将结构化推理视为一种最优策略搜索,我们的方法能够在不进行穷尽采样的情况下,引导推理轨迹走向正确答案。我们在数学推理数据集上的实验表明,针对性的外部辅助显著提高了性能,为SLM和LLM的协作使用铺平了道路,使其能够共同解决目前SLM单独无法解决的复杂推理任务。

本文目录

一、背景动机

二、核心贡献

三、实现方法

3.1 SLM生成推理草稿

3.2 基于分数的步骤评估

3.3 LLM基于步骤修正

3. 4 终止条件

3.5 测试时间计算扩展

四、实验结果

4.1 实验设置

4.2 性能提升

4.3 LLM辅助的效益

4.4 成本效益分析

五、未来研究


一、背景动机

论文题目:Guiding Reasoning in Small Language Models with LLM Assistance

论文地址:https://arxiv.org/pdf/2504.09923v1

当前大模型在需要多步逻辑推理的任务中表现出色,然而小模型SLMs(Small Language Models)由于参数容量有限,虽然推理效率高,但通常难以处理复杂的推理任务,这限制了它们在需要深度逻辑推导的场景中的应用。

该文章提出SMART(Small Reasons, Large Hints)框架,通过在关键决策点提供LLM的辅助,来提升SLMs的推理能力,使其能够处理原本无法解决的复杂推理任务。

二、核心贡献

1、提出了SMART框架,其通过选择性地将LLM生成的推理步骤整合到SLM的推理过程中,以提升SLM的推理能力。

2、在数学推理数据集上进行的实验表明,SMART能够显著提升SLM的性能,使其能够解决原本无法解决的复杂推理问题。

3、文章详细分析了在何种情况下LLM辅助最为有益,为混合推理系统提供了思路。

三、实现方法

3.1 SLM生成推理草稿

  • 输入:给定一个查询 Q。

  • 过程:SLM自回归地生成一个初始推理轨迹 R=(r1​,r2​,…,rm​),其中每个 ri​ 是一个中间推理步骤。

  • 输出:生成的推理过程 R。

3.2 基于分数的步骤评估

  • 评分函数:为每个生成的推理步骤r_i分配一个分数 s(r_i|Q,r<i),用于评估其可靠性。

    • PRM分数:使用预训练的奖励模型(Process Reward Model, PRM)评估每个步骤的正确性。

    • Token级置信度(TLC):计算每个步骤中每个token的平均置信度。

  • 阈值判断:如果分数 s 低于预设阈值 τ,则认为该步骤不可靠,需要LLM的辅助。

3.3 LLM基于步骤修正

  • LLM干预:如果步骤 r_i 的分数低于阈值 τ,则用LLM生成的替代步骤 ^{​{r_i{}}^{'}} 替换它

  • 保留SLM步骤:如果步骤的分数高于阈值,则保留SLM生成的步骤。

3. 4 终止条件

  • EOS标记:如果生成了结束标记(EOS),则停止推理。

  • 最大token长度:如果累积的token数量超过预设的最大值 Lmax​,则停止推理。

3.5 测试时间计算扩展

  • Best-of-N:生成多个推理路径,并独立应用SMART框架。每个路径中的低分节点被LLM生成的替代步骤替换。

  • Beam Search:在每个推理步骤中保留前 M 个候选序列。如果任何候选节点的分数低于阈值 τ,则用LLM生成的替代步骤替换。

四、实验结果

4.1 实验设置

  • 数据集:MATH500数据集,包含500个数学问题,涵盖不同难度级别。

  • 模型:Qwen2.5-1.5B和Qwen2.5-7B,以及Llama3.2-1B和Llama3.2-8B。

  • 评分方法:PRM分数和TLC分数。

  • 评估指标:Weighted@N,选择最高总奖励的答案。

4.2 性能提升

  • SMART在所有设置中均优于SLM基线,并且随着测试时间计算的增加,SMART的性能迅速接近LLM水平。

  • 在单步生成(N=1)的情况下,SMART已经提供了明显的准确性提升。如在N=1时,SMART将Qwen2.5-1.5B的准确率从66.85%提升到79.79%。

  • 随着N的增加,SMART的性能进一步提升,尤其是在更复杂的任务中。如在N=16时,SMART将Qwen2.5-1.5B的准确率提升到91.85%,接近Qwen2.5-7B的94.85%。

4.3 LLM辅助的效益

  • 在低难度任务中,SLM需要较少的LLM干预。在高难度任务中,LLM干预频率显著增加,表明SMART能够有效检测并仅在SLM遇到困难时提供支持。

  • SMART在Best-of-N策略下更频繁地进行干预,并且在必要时进行更激进的修正。在Beam Search策略下,LLM干预较少,因为Beam Search的树状结构允许单个修正自动传播到多个子路径。

4.4 成本效益分析

  • SMART在Beam Search策略下显著减少了LLM token的使用量,最高可达90%。在Best-of-N策略下,SMART的LLM token使用量与直接使用LLM相当。

  • SMART在减少LLM token使用量的同时保持了与LLM相当的准确性,尤其是在Beam Search策略下。

五、未来研究

1、LLM辅助的控制:SMART通过PRM和TLC分数间接控制LLM辅助的程度,缺乏更精细的控制,未来可以探索基于任务复杂度或计算约束的更适应性策略。

2、触发LLM辅助的策略:当前的触发策略可能不是最优的,未来可以探索更优的策略以进一步减少计算开销。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词