LLM基础

LLM：Large Language Model

2020年年中 GPT3.0：LLM往何处去的发展理念

● 单从技术角度看，差距主要来自于对LLM的认知以及未来应往何处去的发展理念的不同。

选手：OpenAI、Google、Meta

LLM的技术脉络、

ChatGPT带来的AI研究新范式。

LLM从海量数据学到什么、如何存取、规模增大的影响、

In Context Learning、Instruct、推理能力、思维链CoT是什么

范式1.0：深度学习到两阶段预训练模型

2013-2020.5

NLP的深度学习模型：LSTM、CNN、Sequence to Sequence+Attention的总体技术框架

如何有效增加模型层深/模型参数容量。

但总体不够成功。原因有两个：数据、特征抽取器的表达能力。

影响：

部分NLP子领域的衰退【中文分词、词性标注、NER、句法分析、指代消解、语义Parser】

技术框架日趋统一【PTM+FT】

NLU：文本分类、句子关系判断、情感倾向判断 -> BERT 0.1B

NLG：聊天机器人、机器翻译、文本摘要、问答系统 -> GPT

范式2.0：从PTM到AGI，Artificial General Intelligence

20.6-至今

过渡期：GPT3.0为代表的自回归语言模型+Prompting 模式

GPT3、PaLM、GLaM、MT-NLG、LaMDA等

能统一到这种模式的原因：

1、Google的T5形式上统一了NLU和NLG

2、如果想要以 zero shot prompting、few shot prompting的方式做好任务，则必须采取 GPT模式。有论文证明这点。《On the Role of Bidirectionality in Language Model Pre-Training》

● 问题：我们最理想的LLM模型是什么样的？

1、具备强大的自主学习能力 -> 规模巨大 -> 作出/改动这个模型参数的机构必然很少
2、能解决NLP任何子领域的问题
3、LLM应该理解人类的命令

few shot prompting（In Context Learning）过渡时期的技术

ChatGPT向GPT3.5模型注入的不是世界知识、而是人类偏好知识。

人类偏好：1、人类表达一个任务的习惯说法 2、区分好、不好的回答

ChatGPT：基本实现了理想LLM的接口层，让LLM适配人的习惯命令表达方式（instruct技术），增加了LLM的易用性和用户体验。

影响二：很多NLP领域子领域不再具备独立研究价值

影响三：更多NLP之外的研究领域将被纳入LLM技术体系

GPT3.0后的LLM模型主流技术：

1、一类是关于LLM模型如何从数据中吸收知识，也包括模型规模增长对LLM吸收知识能力带来的影响

知识分类：语言类知识（词法、词性、句法、语义）、世界知识（事实型知识）。

【可以简单理解：把LLM看做是一种以模型参数体现的隐式知识图谱】

《When Do You Need Billions of Words of Pre-training Data?》研究了PTM学习到的知识量与训练数据量的关系。结论：对于Bert类型的语言模型来说，只用1000万到1亿单词的语料，就能学好句法语义等语言学知识。但是要学习事实类知识，则要更多的训练数据。这个结论其实也是在意料中的，毕竟语言学知识相对有限且静态，而事实类知识则数量巨大，且处于不断变化过程中。而目前研究证明了随着增加训练数据量，预训练模型在各种下游任务中效果越好，这说明了从增量的训练数据中学到的更主要是世界知识。

● LLM如何存取知识
○ Transformer的FFN 看成存储大量具体知识的k-v存储器；FFN的第一层是MLP宽隐层、为Key层；第二层是MLP窄隐层、为Value层。FFN的输入层是某个单词对应的MHA的输出结果Embedding、也就是通过self Attention，将整个句子有关的输入上下文集成到一起的Embedding，代表了整个输入句子的整体信息。

○ Transformer低层对句子的表层模式作出反应，高层对语义模式作出反应。

● 如何修正LLM里存储的知识

○ 从训练数据的源头来修正知识

○ 对LLM模型做一次FT来修正知识

○ 直接修改LLM里某些知识对应的模型参数来修正知识
■ “Locating and Editing Factual Associations in GPT”和“Mass-Editing Memory in a Transformer”

2、规模效应

GLM 130B、文心 260B

比如确实需要同时增加训练数据量和模型参数，模型效果才会更好。

GPT训练用的数据量: 410billion tokens, 即~3000亿的单词.

GLM4：输入token到128k