欢迎来到尧图网

客户服务关于我们

您的位置：首页 > 科技 > 名人名企 > SMART：大模型在关键推理步骤辅导小模型，在保持高推理效率的同时，显著提升小模型的推理能力！！

SMART：大模型在关键推理步骤辅导小模型，在保持高推理效率的同时，显著提升小模型的推理能力！！

2025/11/7 16:59:51 来源：https://blog.csdn.net/m0_58581576/article/details/147567360 浏览: 次关键词：SMART：大模型在关键推理步骤辅导小模型，在保持高推理效率的同时，显著提升小模型的推理能力！！

摘要：小型语言模型（SLM）的推理能力有限，这使得人们对其是否适合需要深度、多步骤逻辑推理的任务产生了怀疑。本文介绍了一种名为“小理由，大提示”（SMART）的框架，该框架通过从大型语言模型（LLM）中选择性地提供针对性指导来增强SLM的推理能力。SMART受到认知脚手架概念的启发，通过基于评分的评估来识别不确定的推理步骤，并且只在必要时注入由LLM生成的纠正性推理内容。通过将结构化推理视为一种最优策略搜索，我们的方法能够在不进行穷尽采样的情况下，引导推理轨迹走向正确答案。我们在数学推理数据集上的实验表明，针对性的外部辅助显著提高了性能，为SLM和LLM的协作使用铺平了道路，使其能够共同解决目前SLM单独无法解决的复杂推理任务。

本文目录

一、背景动机

二、核心贡献

三、实现方法

3.1 SLM生成推理草稿

3.2 基于分数的步骤评估

3.3 LLM基于步骤修正

3. 4 终止条件

3.5 测试时间计算扩展

四、实验结果

4.1 实验设置

4.2 性能提升

4.3 LLM辅助的效益

4.4 成本效益分析

五、未来研究

一、背景动机

论文题目：Guiding Reasoning in Small Language Models with LLM Assistance

论文地址：https://arxiv.org/pdf/2504.09923v1

当前大模型在需要多步逻辑推理的任务中表现出色，然而小模型SLMs（Small Language Models）由于参数容量有限，虽然推理效率高，但通常难以处理复杂的推理任务，这限制了它们在需要深度逻辑推导的场景中的应用。

该文章提出SMART（Small Reasons, Large Hints）框架，通过在关键决策点提供LLM的辅助，来提升SLMs的推理能力，使其能够处理原本无法解决的复杂推理任务。

二、核心贡献

1、提出了SMART框架，其通过选择性地将LLM生成的推理步骤整合到SLM的推理过程中，以提升SLM的推理能力。

2、在数学推理数据集上进行的实验表明，SMART能够显著提升SLM的性能，使其能够解决原本无法解决的复杂推理问题。

3、文章详细分析了在何种情况下LLM辅助最为有益，为混合推理系统提供了思路。

三、实现方法

3.1 SLM生成推理草稿

输入：给定一个查询 Q。
过程：SLM自回归地生成一个初始推理轨迹 R=(r1,r2,…,rm)，其中每个 ri 是一个中间推理步骤。
输出：生成的推理过程 R。

3.2 基于分数的步骤评估

评分函数：为每个生成的推理步骤 $r_i$ 分配一个分数 $s(r_i|Q,r<i)$ ，用于评估其可靠性。
- PRM分数：使用预训练的奖励模型（Process Reward Model, PRM）评估每个步骤的正确性。
- Token级置信度（TLC）：计算每个步骤中每个token的平均置信度。
阈值判断：如果分数 s 低于预设阈值 τ，则认为该步骤不可靠，需要LLM的辅助。

3.3 LLM基于步骤修正

LLM干预：如果步骤 $r_i$ 的分数低于阈值 τ，则用LLM生成的替代步骤 $^{{r_i{}}^{'}}$ 替换它
保留SLM步骤：如果步骤的分数高于阈值，则保留SLM生成的步骤。

3. 4 终止条件

EOS标记：如果生成了结束标记（EOS），则停止推理。
最大token长度：如果累积的token数量超过预设的最大值 Lmax，则停止推理。

3.5 测试时间计算扩展

Best-of-N：生成多个推理路径，并独立应用SMART框架。每个路径中的低分节点被LLM生成的替代步骤替换。
Beam Search：在每个推理步骤中保留前 M 个候选序列。如果任何候选节点的分数低于阈值 τ，则用LLM生成的替代步骤替换。

四、实验结果

4.1 实验设置

数据集：MATH500数据集，包含500个数学问题，涵盖不同难度级别。
模型：Qwen2.5-1.5B和Qwen2.5-7B，以及Llama3.2-1B和Llama3.2-8B。
评分方法：PRM分数和TLC分数。
评估指标：Weighted@N，选择最高总奖励的答案。

4.2 性能提升

SMART在所有设置中均优于SLM基线，并且随着测试时间计算的增加，SMART的性能迅速接近LLM水平。

在单步生成（N=1）的情况下，SMART已经提供了明显的准确性提升。如在N=1时，SMART将Qwen2.5-1.5B的准确率从66.85%提升到79.79%。
随着N的增加，SMART的性能进一步提升，尤其是在更复杂的任务中。如在N=16时，SMART将Qwen2.5-1.5B的准确率提升到91.85%，接近Qwen2.5-7B的94.85%。

4.3 LLM辅助的效益

在低难度任务中，SLM需要较少的LLM干预。在高难度任务中，LLM干预频率显著增加，表明SMART能够有效检测并仅在SLM遇到困难时提供支持。
SMART在Best-of-N策略下更频繁地进行干预，并且在必要时进行更激进的修正。在Beam Search策略下，LLM干预较少，因为Beam Search的树状结构允许单个修正自动传播到多个子路径。

4.4 成本效益分析

SMART在Beam Search策略下显著减少了LLM token的使用量，最高可达90%。在Best-of-N策略下，SMART的LLM token使用量与直接使用LLM相当。
SMART在减少LLM token使用量的同时保持了与LLM相当的准确性，尤其是在Beam Search策略下。

五、未来研究

1、LLM辅助的控制：SMART通过PRM和TLC分数间接控制LLM辅助的程度，缺乏更精细的控制，未来可以探索基于任务复杂度或计算约束的更适应性策略。

2、触发LLM辅助的策略：当前的触发策略可能不是最优的，未来可以探索更优的策略以进一步减少计算开销。

版权声明:

本网仅为发布的内容提供存储空间，不对发表、转载的内容提供任何形式的保证。凡本网注明“来源：XXX网络”的作品，均转载自其它媒体，著作权归作者所有，商业转载请联系作者获得授权，非商业转载请注明出处。

我们尊重并感谢每一位作者，均已注明文章来源和作者。如因作品内容、版权或其它问题，请及时与我们联系，联系邮箱：809451989@qq.com，投稿邮箱：809451989@qq.com

相关资讯

热文排行

最新新闻

推荐新闻

热搜词