欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 汽车 > 时评 > 20240708 多模态大模型

20240708 多模态大模型

2025/9/28 14:03:53 来源:https://blog.csdn.net/GAOSHIQI5322688/article/details/140271477  浏览:    关键词:20240708 多模态大模型

参考网站:

微软Florence-2官宣开源,一统视觉基础模型!华人团队联手打造

自监督学习修炼之MoCov1与MoCov2 - 知乎

CLIP图像编码resnet50和transformer区别

CLIP (Contrastive Language-Image Pre-training) 是一个结合了图像和文本的跨模态预训练模型,它通过对比学习的方式使模型学会将图像与相关的描述性文本对齐。在 CLIP 中,图像编码器可以采用不同的架构,包括基于ResNet50或Transformer的设计。

ResNet50作为图像编码器:

  • ResNet50是深度残差网络的一种变体,包含50层,其核心特点是使用残差块来解决深层神经网络中的梯度消失和爆炸问题。
  • 在CLIP中,ResNet50通常被用来提取图像特征。它是一个卷积神经网络(CNN),擅长捕捉局部特征并进行层次化的抽象表示,尤其适合于图像识别和分类任务。

Transformer作为图像编码器(ViT, Vision Transformer):

  • ViT是一种将Transformer应用于图像领域的结构,它首先将图像分割成一系列固定大小的 patches,然后将这些patches线性投影为向量序列,并加上位置编码,以便模型理解patch之间的相对或绝对位置关系。
  • 在CLIP中,如果使用Transformer作为图像编码器,它可以提供全局注意力机制,即每个patch都能够与图像中其他所有patch相互作用,这样模型可以从全局视角捕获上下文信息,而不仅仅是局部特征。
  • 与ResNet相比,Transformer在处理长距离依赖时具有优势,但可能需要更多的计算资源和更大的数据集来训练以达到最佳性能。

总结来说,在CLIP中,ResNet50图像编码器更侧重于局部特征表达,适合于计算机视觉传统任务;而Transformer(如ViT)图像编码器则能够从全局视角捕捉图像特征,这在处理需要理解和推理全局语境的任务时可能更为有效。

七.GLIP:

在计算机视觉和自然语言处理领域,"grounding"(接地)这个概念最早源于认知科学,它是指符号或词语与现实世界实体或概念之间的对应关系,即词汇或表述与它们所指代的对象或事件建立起联系的过程。在人工智能中,grounding意味着模型需要理解文本中的描述并将其准确地映射到视觉场景中的相应元素上。

在GLIP(Grounded Language-Image Pre-training)模型中,"grounding"这一名词的引用更加直接,它特指模型能够将文本指令或问题与图像中的特定区域(即像素级)相关联的能力。GLIP通过预训练来学习语言和图像之间的这种精准对应关系,使得模型在面对下游任务如图像标注、视觉问答等时,能够有效地将文本信息与图像中的对象、动作或场景属性精确匹配,也就是所谓的“视觉-语言对齐”(Visual-Linguistic Alignment)或“定位语义”(Phrase Grounding)。

十分钟解读GLIP:Grounded Language-Image Pre-training - 知乎

多模态问答模型论文大全:

GitHub - BradyFU/Awesome-Multimodal-Large-Language-Models: :sparkles::sparkles:Latest Papers and Datasets on Multimodal Large Language Models, and Their Evaluation.

八. SAM

SAM模型详解 - 知乎

Segment Anything | Meta AI

GitHub - IDEA-Research/Grounded-Segment-Anything: Marrying Grounding DINO with Segment Anything & Stable Diffusion & BLIP - Automatically Detect , Segment and Generate Anything with Image and Text Inputs

自动标注

使用Segment Anything(SAM)模型进行自动标注_咚咚锵咚咚锵的博客-CSDN博客

https://github.com/IDEA-Research/Grounded-Segment-Anything

SAM小模型 

https://github.com/ChaoningZhang/MobileSAM

九.TAM

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词