LLM论文笔记 18: When Do Program-of-Thought Works for Reasoning?

2025/7/9 10:44:20 来源：https://blog.csdn.net/m0_65305142/article/details/146082790 浏览: 次关键词：LLM论文笔记 18: When Do Program-of-Thought Works for Reasoning?

Arxiv日期：2023.12.18
机构：ZJU / Donghai Laboratory / NUS

1. 编程语言具有明显的优势：

2. 并不是任意复杂度的程序训练都对大模型的推理能力有帮助

3. 最佳代码级别对于 PoT 的推理能力至关重要

4. 参数数量越多，LLM 推理能力的增益就越显着

5. 当前大模型在推理能力上仍然具有局限性

将代码抽象为AST，发现并非所有复杂的代码数据都可以被 LLM 学习或理解。

因此提出复杂度的衡量分数：complexity-impacted reasoning score (CIRS)

Score_SC 表示 Structural Complexity：

Score_LC 表示 Logical Complexity：

n1 表示操作符个数；n2 表示代码原理中操作数个数；N2 表示代码中操作数个数。

E 表示 control flow 的 edge 个数；N 表示 nodes 个数。

自动化分层过滤pipeline：

注：本系列不包括基础的知识点讲解，为笔记/大纲性质而非教程，用于论文知识点和思想和快速记忆和回顾，更多细节建议阅读论文原文

相关资讯