欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 财经 > 创投人物 > AGI(4)大模型的推理综述

AGI(4)大模型的推理综述

2025/6/23 23:41:18 来源:https://blog.csdn.net/ifeves/article/details/148780570  浏览:    关键词:AGI(4)大模型的推理综述

本文源自基于基础模型的推理综述《A Survey of Reasoning with Foundation Models》,因为原文有点难于理解,在这个论文的基础上增加了自己的解释和理解,重新整理成此文。大家可以通过查看原文阅读原始论文。

1、推理的概念

推理是解决复杂问题的一项关键能力,作为人工智能通用技术 (AGI) 领域的一种基本方法论。 随着基础模型LLM的持续发展,人们越来越关注探索其在推理任务中的能力。

推理是一种思维过程,它基于已有的信息、知识或事实,通过逻辑规则和方法,推导出新的结论或判断。简单来说,推理是从已知的前提出发,经过逻辑思考,得出未知结论的过程

2、推理的类型

推理分为三种主要类型:归纳推理、演绎推理和溯因推理。

  • 归纳推理:是从个别性知识推出一般性结论的推理。它是根据一类事物中的部分对象具有某种属性,从而推断出该类事物的所有对象都具有这种属性的推理方式。例如,观察到乌鸦A是黑的、乌鸦B是黑的、乌鸦C是黑的,然后得出结论“所有的乌鸦都是黑的”。这种推理是从特殊到一般的推理过程。
  • 演绎推理:是从一般性前提推出特殊性结论的推理。它是根据已知的一般性规律或原则,对特定的情况进行推理,从而得出结论。例如,著名的三段论,已知“所有的人都会死”(一般性前提),“苏格拉底是人”(特殊性前提),那么可以推出“苏格拉底会死”(特殊性结论)。这种推理是从一般到特殊的推理过程。
  • 溯因推理:是从结果到原因的推理。它是根据已知的事实或现象,推测出导致这个事实或现象产生的原因。例如,看到地面是湿的,推测可能是下雨了。这种推理是试图寻找解释现象的最合理的原因。

3、推理任务

推理任务分为以下几种:

  • 常识推理:探索推断和运用日常直觉知识的能力。
  • 数学推理 :专注于解决数学问题和推导出逻辑结论的能力。
  • 逻辑推理:检查基于形式逻辑进行推断和决策的过程。
  • 因果推理:调查对因果关系及其影响的理解。
  • 多模态推理:涉及跨多种数据模态(例如文本、图像和感官信息)进行推理。
  • 视觉推理:专注于需要解释和处理视觉数据才能完成的任务。
  • 体验式推理:探索在具身智能体与其环境交互的背景下的推理。

3.1 常识推理

常识推理是指基于日常生活经验和常识知识进行的推理。它依赖于人们对世界的普遍认知和经验,而不需要复杂的逻辑或数学工具。常识推理通常用于解决日常生活中的简单问题。比如如果一个人在户外,看到天空乌云密布,他应该怎么做?根据常识,乌云密布推理可能会下雨。结论是寻找避雨的地方。

最近的研究表明,语言模型能够习得某些方面的常识知识。常识推理中基础模型的三个研究领域。 (a) 通过理解日常知识,基础模型可以根据问题中的隐含知识进行推理并推导出答案。 (b) 基础模型从一般的物理知识中推断出广泛的物理属性。 (c) 基础模型根据一组对象推理空间属性。如下图

3.2 数学推理

数学推理是指通过数学公式、定理和逻辑规则进行的推理。它依赖于数学知识和严格的逻辑结构,通常用于解决数学问题或进行科学计算。例如解方程 2x+3=7。方程的解是 x=2。

3.3 逻辑推理

逻辑推理是指通过逻辑规则和形式化方法进行的推理。它依赖于逻辑规律(如演绎推理、归纳推理等),通常用于解决逻辑问题或进行论证分析。例如已知所有金属都能导电,铜是金属,那么铜是否能导电?前提1:所有金属都能导电(一般性前提)。前提2:铜是金属(特殊性前提)。结论:根据演绎推理,铜能导电(特殊性结论)。

增强大型语言模型逻辑推理能力的两种主要方法。 (a) 上下文学习利用具体的提示作为演示来引出逻辑推理。 (b) 微调使用额外的训练样本更新专门的模型参数。

3.4 因果推理

因果推理是一种分析方法,旨在探究事件之间的因果关系,即确定一个事件(原因)是否会导致另一个事件(结果)的发生。

它超越了简单的关联性分析,试图揭示变量之间的直接联系,预测干预措施的效果,并为决策提供支持。

因果推理的工作原理基于观察数据或实验结果,通过使用统计和数学模型来推断变量间的因果关系,通常涉及构建因果图或利用潜在结果模型来表示变量间的相互作用。例如医学研究中,科学家们希望通过因果推理来确定吸烟是否会导致肺癌,观察数据:收集大量人群的吸烟习惯和肺癌发病率数据。控制变量:通过随机对照试验(RCT)或观察性研究,控制其他可能影响肺癌的因素(如年龄、性别、遗传因素等)。因果分析:使用统计方法(如因果推断模型)分析吸烟与肺癌之间的因果关系。结论:如果数据显示吸烟者患肺癌的概率显著高于非吸烟者。

下图反映不同因果推理任务的因果图示例。 (a) 因果发现识别给定系统中变量之间的潜在因果关系。 (b) 效应推断根据已知的因果关系估计对系统进行特定干预的结果(例如,重量)。 (c) 属性决定特定原因对给定结果负责的程度。 (d) 判断基于对因果关系的感知后果和影响做出决定。

3.5 视觉推理(Visual Reasoning)

视觉推理是一种结合了视觉理解和推理能力的技术,使计算机能够理解和推理图像中的复杂信息。它不仅要求计算机识别图像中的物体或场景,还需要理解它们之间的关系,并通过推理做出判断或预测。例如,看到一个人正在打开冰箱门,视觉推理可以推测出这个人可能想拿冰箱里的苹果。视觉推理的技术框架通常包括视觉理解(如图像分类、物体检测)和推理机制(如关系推理、因果推理)。

3.6 多模态推理(Multimodal Reasoning)

多模态推理是指机器通过整合多种感官模态信息(如文本、图像、音频、视频等),结合逻辑分析与语义理解,推导出隐含结论的过程。它模仿人类在处理复杂信息时的方式,通过融合不同模态的数据来增强理解和推理能力。例如,一个智能客服系统需要处理用户通过文字、语音和图片等多种方式提出的问题。

多模态输入:用户通过语音提问“我的快递到哪里了?”并上传了一张快递单的照片。文本理解:系统通过语音识别技术将语音转换为文本。图像理解:系统通过光学字符识别(OCR)技术从快递单照片中提取快递单号。综合推理:系统结合文本和图像信息,查询快递物流系统,获取快递的实时位置。

模态推理任务可以大致分为图像-文本对齐、文本到图像生成、多模态到文本生成和多模态理解。 当前的多模态基础模型主要涉及三种关键技术来处理推理任务,包括多模态指令调优、多模态上下文学习和 LLM 辅助视觉推理。

3.7 体验式推理(Experiential Reasoning)

体验式推理是一种基于个体经验或情境的推理方式,它强调通过实际体验或情境模拟来理解和解决问题。虽然搜索结果中没有直接提到体验式推理的定义,但可以类比于在实际场景中通过感知、互动和反馈来形成推理的过程。例如,在自动驾驶中,车辆通过实时感知路况并结合过往经验做出决策,这可以看作是一种体验式推理的应用。

3.8 智能体推理(Agent Reasoning)

智能体推理(Agent Reasoning)是指智能体(Agent)通过逻辑、知识、经验等手段来分析信息、解决问题并做出决策的过程。智能体可以是软件程序、机器人,或者是任何能够自主感知环境并采取行动的系统。智能体推理的核心在于模拟人类的思维方式,通过推理来应对复杂环境和任务。智能体推理分为内省推理、外省推理、具身推理和多智能体推理。 

3.8.1 内省推理

内省推理不需要与环境交互,仅依赖于内部知识和推理来生成静态的工具使用计划。内省推理尽管简单,但却缺乏根据中间执行结果调整或修改计划的能力。 如下图

内省推理可能在动态和不确定的环境中存在局限性,在这种环境中,外部反馈和与环境的互动对于有效计划至关重要。

3.8.2 外省推理

内省推理尽管简单,但却缺乏根据中间执行结果调整或修改计划的能力。 相反,外省推理通过增量生成计划来运行。 它通过迭代地与环境交互并结合从先前执行中获得的反馈来实现这一点。 外省推理主动整合通过与环境交互收集的外部信息。 这允许外省推理根据实时反馈和先前行动的观察结果来调整和改进其计划 。

通过积极参与环境并利用反馈,外省推理提供了一种更灵活、更迅速的计划生成方法,这尤其适用于需要适应和从经验中学习能力的复杂和动态情况。 外省推理与大型语言模型相关的几项工作包括 Self-Ask [514]、ReAct 、ToolFormer 和 LLM-Planner 。 Self-Ask 主动生成并回应其自身后续查询,然后再处理原始问题。 

同时,ReAct 利用大型语言模型同时生成推理轨迹和特定于任务的动作。 这种双重方法增强了这些元素之间的交互,推理轨迹有助于制定、监控和修改行动计划,以及管理意外情况。 相反,行动促进了模型与外部实体(如知识库或环境)的参与和补充数据的获取。 ToolFormer旨在智能地确定要使用的适当API、调用时机、要提供的特定参数以及如何有效地将获得的结果集成到后续符元预测中。 LLM-Planner 利用大型语言模型的能力,在具体化智能体的背景下进行高效的少样本规划。

3.8.3 具身推理

最近的研究强调了大语言模型 (LLM) 在机器人领域取得的成功应用。 此外,规划可以被认为是一种时间推理形式,这增加了将大语言模型集成到机器人技术中的重要性。 Gato作为一个多模态、多任务和多具身的一般性策略发挥作用。 它利用监督学习,参数数量惊人地达到了12亿。 这项技术已被认为是一种“通用”人工智能,代表着向实现人工通用智能迈出的重要一步。

机器人Transformer 1 (RT-1) 在一个包含超过13万个情节的数据集上进行训练,这些情节涵盖了700多个任务。 这个庞大的数据集是在17个月的时间里,使用Everyday Robots公司的13台机器人组成的机器人集群收集的。 RT-1 作为一个可扩展的预训练模型展示了其有前景的特性,展示了其根据数据大小、模型大小和数据多样性等因素进行泛化的能力。 利用从参与现实世界任务的真实机器人收集的大规模数据,有助于提高RT-1的鲁棒性及其在实际场景中泛化的潜力。 

在RT-1能力的基础上,机器人Transformer 2 (RT-2) 进一步增强了模型对世界的理解,从而使机器人任务的执行更加高效和准确。 通过结合思维链推理,RT-2实现了多阶段语义推理能力。 这种扩展为RT-2配备了一套源于在庞大的互联网规模数据集上进行广泛训练而产生的新兴能力。 显著的进步包括:模型对陌生物体的泛化能力显著提高;能够理解其原始训练数据中不存在的指令;以及在响应用户指令时能够进行基本的推理。 这些增强功能提高了RT-2的性能,并拓宽了其处理更广泛任务的能力,并提高了复杂性。 

之后,RT-X 进一步扩展了RT-1和RT-2到跨具身设置,并展示了更好的可迁移性和零样本能力。 RoboFlamingo利用预训练的视觉语言模型 (VLMs) 来实现复杂的单步视觉语言理解。 它包含一个明确的策略头,以有效地捕获顺序历史数据。 这种设计赋予它实现开环控制策略所需的灵活性,并且经过微调可在资源受限的平台上高效部署。

3.8.4 多智能体推理 

(图:单主体推理和多主体推理的区别) 

多智能体推理是指多个智能体在共享环境或上下文内进行推理、决策和交流的认知过程。 与单智能体推理相比,它涉及智能体感知、解释和推理其他主体的行为、目标、信念和意图,并相应地调整自身行为的能力。 它们的区别在图中进行了简要总结。

最近的研究引入了多智能体辩论的概念,这是一种很有前景的方法,可以提高推理能力并确保在各种场景下的事实准确性。 在Zhang 等人的工作中,他们引入了一个框架,该框架利用大型语言模型 (LLM) 的能力来促进具体环境中多个智能体之间的合作互动。 

这种创新方法使具体智能体能够有效地制定策略、进行沟通和与其他智能体以及人类进行协作,从而提高它们完成复杂长期任务的能力。 同样,Du 等人提出了一种方法,该方法涉及多个语言模型实例参与辩论。 通过反复的推理和响应生成,这些模型共同努力得出最终的共同答案。 这种方法已证明在各种任务中的数学和策略推理方面取得了显著改进。

与上述研究相比,Nascimento 等人提出将 LLM(例如基于 GPT 的技术)集成到多智能体系统 (MAS) 中。他们介绍了将 LLM 集成到 MAS 中以创建自适应智能体的概念。 这种集成是通过基于 LLM 的 MAPE-K(监控、分析、规划、执行和知识)模型[155, 540] 实现的,该模型使智能体能够根据从 LLM 获得的知识和见解来调整和调整其行为。

联邦学习 (FL) 作为一种能够协同开发公共模型同时保护保持分散的数据的技术而日益突出。 Chen 等人提出了联邦 LLM 的概念,包括三个关键要素:联邦 LLM 的预训练、这些模型的微调以及针对联邦 LLM 的提示工程。 这种方法利用联邦学习的潜力,通过利用 LLM 来增强多智能体推理。

这些研究工作证明了多智能体辩论方法在增强推理能力和事实准确性方面的有效性。 通过利用大型语言模型的强大功能并实现智能体之间的合作互动,这些研究有助于发展能够进行复杂推理并在各个领域提高性能的 AI 系统。

4、附录:推理和泛化能力的区别

推理能力和泛化能力是大模型非常重要的两大能力。

模型的泛化能力指模型对未见过的新数据的适应能力。核心目标是让模型在训练数据之外的场景中,也能保持较好的预测或表现效果。举例:用猫狗图片训练模型,若它能准确识别新拍摄的猫狗照片,就说明泛化能力强。

推理能力指模型基于已有的知识和输入信息,进行逻辑推导、得出新结论的能力。核心目标是使模型能像人一样,通过分析和推理解决复杂问题。举例:给模型一个数学推理题,它能依据规则一步步推导出正确答案,体现的就是推理能力。

简单理解,泛化能力就像你学了识别苹果和香蕉后,看到没见过的芒果也能认出是水果,是模型对新数据的“认生”能力;推理能力则像你知道“苹果比香蕉重,香蕉比橘子重”,能推出“苹果比橘子重”,是模型用已知信息“算明白”新问题的本事。前者是“见过类似的就会认”,后者是“没见过但能想通”。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词