学习书籍《大语言模型》(赵鑫)
电子版书籍链接
前沿
大模型背后的技术是什么?
了解通用人工智能。
OpenAI关键:
- 可拓展的训练架构与学习范式
- 对数据质量与数据规模的重视
第一部分 背景与基础知识
第一章 引言
四代语言模型:
- 统计语言模型
- 神经语言模型
- 预训练语言模型
- LLM
LLM关键技术:
- 规模扩展
- 数据工程
- 高效预训练:各种并行策略以及效率优化方法
- 能力激发:指令微调和提示策略
- 工具使用:GPT系列模型通过插件机制来形成系统性的工具调用方式,类比为LLM的“眼睛和耳朵”
第二章 基础介绍
大语言模型是指在海量无标注文本数据上进行预训练得到的大型预训练语言模型。
理解大语言模型:从机器学习的观点,神经网络是一种具有特定模型结构的函数形式,而大语言模型则是一种基于Transformer结构的神经网络模型。
本质上是做模型参数的优化,但是优化目标更加泛化,是希望能够作为通用任务的求解器。
训练过程分为:
- 大规模预训练
- 指令微调与人类对齐
预训练
预训练:指使用与下游任务无关的大规模数据进行模型参数的初始训练,可以认为是为模型参数找到一个较好的“初值点”。
解码器架预测下一个词的有效性得到了充分验证,已经成为现有大语言模型主要采纳的技术路径。
预训练结束后,通常需要对于大语言模型进行微调与对齐,使之更好用于任务求解。
比较广泛使用的微调技术是“指令微调”。使用任务输入与输出的配对数据进行模型训练。过程本质属于机器学习中的模仿学习。主要起到了对模型能力的激发作用。
通常数十万到百万规模的指令微调数据能够有效的激发语言模型的通用任务解决能力。(若干台单机八卡A100-80G的服务器就能在一天或数天时间内完成百亿模型的指令微调)。
InstructGPT介绍了如何将语言模型进行人