前言
本文收集了人工智能领域的最重要的论文,钻研技术的你可以收藏学习。
一、最新大模型相关论文
- 文本到图像模型:
- DALL-E-2:提出了一个两阶段模型,先通过CLIP生成图像嵌入,再通过解码器生成图像。论文链接
- Stable Diffusion:使用扩散模型来建模图像的潜在空间,并引入交叉注意力层以实现条件生成。论文链接
- Imagen:基于大型transformer语言模型(如T5)理解文本,并使用级联扩散模型生成高保真图像。论文链接
- 自回归模型:
- DALL-E:使用transformer自回归地建模文本和图像标记。论文链接
- Parti:将文本到图像生成视为序列到序列建模问题,类似于机器翻译。论文链接
- 统一生成模型:
- UniDiffuser:提出了一种统一的扩散模型,能够执行图像、文本、文本到图像、图像到文本和图像文本对的生成。论文链接
- 视觉-语言预训练模型:
- CLIP:通过对比学习损失预测哪个标题与哪个图像匹配。论文链接
- BEiT 3:引入多路transformer,并在图像、文本和图像-文本对上使用掩码“语言”建模。论文链接
- 大型语言模型:
- ERNIE 3.0:大规模知识增强预训练,用于语言理解和生成。论文链接
- M6:中文多模态预训练器。论文链接
- PanGu-α:大规模自回归预训练中文语言模型。论文链接
- 大模型综述:
- 《A Survey of Large Language Models》:系统性地梳理了大语言模型的研究进展与核心技术。论文链接
这些论文涵盖了大模型在多个领域的应用和研究进展,包括文本到图像生成、视觉-语言预训练、大型语言模型等。这些资源为您提供了深入了解大模型领域的窗口。
二、transfomer相关论文
关于Transformer模型的论文,以下是一些重要的研究成果和论文链接:
- 原始Transformer模型:
- 《Attention Is All You Need》:这篇论文于2017年发表在NIPS会议上,首次提出了Transformer模型架构,并拓展了注意力机制的使用方法。论文链接:https://arxiv.org/abs/1706.03762。
- Transformer在自然语言处理中的应用:
- 《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》:2018年的论文,提出了BERT模型,通过遮罩语言模型(Masked Language Model)和下一句预测(Next Sentence Prediction)任务进行预训练。论文链接:https://arxiv.org/abs/1810.04805。
- Transformer的变体和扩展:
- 《Transformer in Transformer》:这篇论文提出了Transformer in Transformer (TNT),通过将局部块划分为更小的单元来提高视觉Transformer的表示能力。论文链接:https://arxiv.org/abs/2103.00112。
- Transformer的训练方法:
- 有关Top-K和Top-P采样的论文:这些论文讨论了如何从概率分布中采样,以及如何控制模型的输出分布。论文链接:https://arxiv.org/pdf/1904.09751.pdf。
- Transformer的预训练范式:
- 《Improving Language Understanding by Generative Pre-Training》:这篇论文讨论了通过生成式预训练来提高语言理解能力的方法。。
这些论文涵盖了Transformer模型的基础架构、在自然语言处理中的应用、变体和扩展,以及训练方法等多个方面,为理解Transformer模型提供了全面的视角。