LLM:Large Language Model
2020年年中 GPT3.0:LLM往何处去的发展理念
● 单从技术角度看,差距主要来自于对LLM的认知以及未来应往何处去的发展理念的不同。
选手:OpenAI、Google、Meta
LLM的技术脉络、
ChatGPT带来的AI研究新范式。
LLM从海量数据学到什么、如何存取、规模增大的影响、
In Context Learning、Instruct、推理能力、思维链CoT是什么
范式1.0:深度学习到两阶段预训练模型
2013-2020.5
NLP的深度学习模型:LSTM、CNN、Sequence to Sequence+Attention的总体技术框架
如何有效增加模型层深/模型参数容量。
但总体不够成功。原因有两个:数据、特征抽取器的表达能力。
影响:
部分NLP子领域的衰退【中文分词、词性标注、NER、句法分析、指代消解、语义Parser】
技术框架日趋统一【PTM+FT】
NLU:文本分类、句子关系判断、情感倾向判断 -> BERT 0.1B
NLG:聊天机器人、机器翻译、文本摘要、问答系统 -> GPT
范式2.0:从PTM到AGI,Artificial General Intelligence
20.6-至今
过渡期:GPT3.0为代表的 自回归语言模型+Prompting 模式
GPT3、PaLM、GLaM、MT-NLG、LaMDA等
能统一到 这种模式的原因:
1、Google的T5形式上统一了NLU和NLG
2、如果想要以 zero shot prompting、few shot prompting的方式 做好任务,则必须采取 GPT模式。有论文证明这点。《On the Role of Bidirectionality in Language Model Pre-Training》
● 问题:我们最理想的LLM模型是什么样的?
1、具备强大的自主学习能力 -> 规模巨大 -> 作出/改动这个模型参数的机构必然很少
2、能解决NLP任何子领域的问题
3、LLM应该理解人类的命令
few shot prompting(In Context Learning) 过渡时期的技术
ChatGPT向GPT3.5模型注入的不是 世界知识、而是人类偏好知识。
人类偏好:1、人类表达一个任务的习惯说法 2、区分好、不好的回答
ChatGPT:基本实现了理想LLM的接口层,让LLM适配人的习惯命令表达方式(instruct技术),增加了LLM的易用性和用户体验。
影响二:很多NLP领域子领域不再具备独立研究价值
影响三:更多NLP之外的研究领域将被纳入LLM技术体系
GPT3.0后的LLM模型主流技术:
1、一类是关于LLM模型如何从数据中吸收知识,也包括模型规模增长对LLM吸收知识能力带来的影响
知识分类:语言类知识(词法、词性、句法、语义)、世界知识(事实型知识)。
【可以简单理解:把LLM看做是一种以模型参数体现的隐式知识图谱】
《When Do You Need Billions of Words of Pre-training Data?》 研究了PTM学习到的知识量与训练数据量的关系。结论:对于Bert类型的语言模型来说,只用1000万到1亿单词的语料,就能学好句法语义等语言学知识。但是要学习事实类知识,则要更多的训练数据。这个结论其实也是在意料中的,毕竟语言学知识相对有限且静态,而事实类知识则数量巨大,且处于不断变化过程中。而目前研究证明了随着增加训练数据量,预训练模型在各种下游任务中效果越好,这说明了从增量的训练数据中学到的更主要是世界知识。
● LLM如何存取知识
○ Transformer的FFN 看成存储大量具体知识的k-v存储器;FFN的第一层是MLP宽隐层、为Key层;第二层是MLP窄隐层、为Value层。FFN的输入层是某个单词对应的MHA的输出结果Embedding、也就是通过self Attention,将整个句子有关的输入上下文集成到一起的Embedding,代表了整个输入句子的整体信息。
○ Transformer低层对句子的表层模式作出反应,高层对语义模式作出反应。
● 如何修正LLM里存储的知识
○ 从训练数据的源头来修正知识
○ 对LLM模型做一次FT来修正知识
○ 直接修改LLM里某些知识对应的模型参数来修正知识
■ “Locating and Editing Factual Associations in GPT”和“Mass-Editing Memory in a Transformer”
2、规模效应
GLM 130B、文心 260B
比如确实需要同时增加训练数据量和模型参数,模型效果才会更好。
GPT训练用的数据量: 410billion tokens, 即~3000亿的单词.
GLM4:输入token到128k
