欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 科技 > IT业 > 多模态大语言模型arxiv论文略读(五十六)

多模态大语言模型arxiv论文略读(五十六)

2025/5/8 23:52:10 来源:https://blog.csdn.net/Jamence/article/details/147676969  浏览:    关键词:多模态大语言模型arxiv论文略读(五十六)

请添加图片描述

DesignQA: A Multimodal Benchmark for Evaluating Large Language Models’ Understanding of Engineering Documentation

➡️ 论文标题:DesignQA: A Multimodal Benchmark for Evaluating Large Language Models’ Understanding of Engineering Documentation
➡️ 论文作者:Anna C. Doris, Daniele Grandi, Ryan Tomich, Md Ferdous Alam, Mohammadmehdi Ataei, Hyunmin Cheong, Faez Ahmed
➡️ 研究机构: Massachusetts Institute of Technology (MIT), Autodesk Research, MIT Motorsports
➡️ 问题背景:当前的大型语言模型(LLMs)和多模态大型语言模型(MLLMs)在处理各种任务时表现出色,尤其是在工程设计领域。然而,这些模型在处理复杂的技术文档时仍存在局限性,尤其是在理解多模态信息(如文本、CAD图像和工程图纸)方面。为了评估这些模型在工程设计任务中的表现,研究团队开发了DesignQA,这是一个新的多模态基准,旨在评估MLLMs在理解和应用工程设计要求方面的能力。
➡️ 研究动机:尽管MLLMs在某些工程设计任务中表现出色,但它们在处理复杂的技术文档时仍面临挑战,如从文档中提取相关规则、识别CAD图像中的技术组件以及分析工程图纸。为了更好地理解这些模型的局限性,并为未来的改进提供方向,研究团队开发了DesignQA,以全面评估MLLMs在工程设计任务中的表现。
➡️ 方法简介:研究团队构建了DesignQA基准,该基准包含1451个问题,基于Formula SAE 2024规则文档和MIT Motorsports团队提供的CAD模型和测试数据。DesignQA分为三个部分:规则提取(Rule Extraction)、规则理解(Rule Comprehension)和规则遵守(Rule Compliance),每个部分进一步细分为具体的任务。此外,DesignQA还包含自动评估指标,以确保评估的客观性和可重复性。
➡️ 实验设计:研究团队使用DesignQA基准评估了多个最先进的MLLMs,包括GPT-4o、GPT-4、Gemini-1.0、Claude-Opus和LLaVA-1.5。实验设计了不同的任务,如规则提取、规则理解和规则遵守,以全面评估模型在处理多模态信息和复杂技术文档时的能力。实验结果表明,尽管这些模型在某些任务上表现良好,但在提取规则、识别CAD图像中的技术组件和分析工程图纸等方面仍存在显著困难。这些发现强调了开发更强大的多模态模型的必要性,以更好地处理工程设计任务中的多模态信息。

LaVy: Vietnamese Multimodal Large Language Model

➡️ 论文标题:LaVy: Vietnamese Multimodal Large Language Model
➡️ 论文作者:Chi Tran, Huong Le Thanh
➡️ 研究机构: Hanoi University of Science and Technology
➡️ 问题背景:尽管大型语言模型(LLMs)和多模态大型语言模型(MLLMs)在自然语言处理任务中展现了卓越的能力,但越南语多模态资源的缺乏限制了越南语MLLMs的发展。高质量的多模态数据集对于训练和评估MLLMs至关重要,因为这些模型需要整合视觉和文本信息来有效执行多模态任务。
➡️ 研究动机:为了解决越南语多模态资源的缺乏问题,并促进越南语多模态语言理解的研究,研究团队介绍了LaVy,这是首个越南语MLLM,并且在越南视觉语言任务中达到了最先进的性能。此外,研究团队还提出了LaVy-Bench基准,用于评估MLLMs在越南视觉语言任务中的理解能力。
➡️ 方法简介:LaVy基于LlaVA架构构建,包括视觉编码器、MLP投影器和语言模型三个主要组件。研究团队通过翻译和精炼、以及合成数据的方法,构建了一个包含708K图像-字幕对的预训练数据集和166K高质量指令的微调数据集。训练过程分为预训练和微调两个阶段,分别优化跨模态投影器和整个模型。
➡️ 实验设计:实验使用了Vistral 7B作为语言模型的骨干,并使用CLIP大型视觉编码器。预训练阶段使用708K字幕数据集训练1个epoch,微调阶段使用166K指令数据集训练1个epoch。评估时,使用贪婪解码生成模型的响应。LaVy在零样本视觉问答(VQA)和野外基准测试中表现出色,显著优于多语言基线模型mBLIP。

On Speculative Decoding for Multimodal Large Language Models

➡️ 论文标题:On Speculative Decoding for Multimodal Large Language Models
➡️ 论文作者:Mukul Gagrani, Raghavv Goel, Wonseok Jeon, Junyoung Park, Mingu Lee, Christopher Lott
➡️ 研究机构: Qualcomm AI Research
➡️ 问题背景:多模态大型语言模型(MLLMs)在推理过程中由于其大型语言模型(LLMs)的主干结构,面临内存带宽瓶颈和自回归生成的问题,导致推理速度缓慢。本文探讨了通过投机解码(speculative decoding)来提高MLLMs推理效率的方法,特别是针对LLaVA 7B模型。
➡️ 研究动机:现有的研究主要集中在单模态LLMs的投机解码上,而针对多模态模型的研究较少。本文旨在填补这一空白,通过实验验证投机解码在多模态模型中的应用效果,特别是探索语言模型作为草案模型在不考虑图像信息时的性能。
➡️ 方法简介:研究团队提出了一种使用较小的语言模型作为草案模型的投机解码方法,该方法可以绕过图像令牌及其相关处理组件。此外,还构建了一个包含图像适配器的小型LLaVA草案模型,以评估其在不同任务中的表现。
➡️ 实验设计:实验在三个不同的任务上进行,包括LLaVA Instruct 150K数据集上的图像问答、COCO数据集上的图像描述生成以及ScienceQA数据集上的科学问题回答。实验设计了不同阶段训练和微调的草案模型,评估了不同草案模型在不同任务中的性能,特别是内存限制下的加速比、块效率和生成速率。

TextHawk: Exploring Efficient Fine-Grained Perception of Multimodal Large Language Models

➡️ 论文标题:TextHawk: Exploring Efficient Fine-Grained Perception of Multimodal Large Language Models
➡️ 论文作者:Ya-Qi Yu, Minghui Liao, Jihao Wu, Yongxin Liao, Xiaoyu Zheng, Wei Zeng
➡️ 研究机构: Huawei Inc.
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在多种多模态任务中展现了卓越的能力。然而,大多数现有的MLLMs并不适合处理文档导向的任务,这些任务需要细粒度的图像感知和信息压缩。文档图像理解能力作为MLLMs的核心能力之一,对于实现基于MLLM的智能手机应用代理、富文本辅助阅读等前沿应用至关重要。然而,文档图像具有高分辨率和高信息密度的特点,这给MLLMs带来了两个主要挑战:实现文档内容的细粒度视觉感知和高效压缩文档图像信息。
➡️ 研究动机:尽管先前的工作在解决上述困难方面取得了一定进展,但在细粒度视觉感知和文档信息压缩方面仍有改进空间。此外,大多数当前的MLLMs难以在通用能力和文档能力之间取得平衡。为了解决这些问题,研究团队提出了TextHawk,旨在探索高效的细粒度感知方法,同时保持MLLMs的通用能力。
➡️ 方法简介:TextHawk通过设计四个专用组件来实现其目标。首先,提出了一种重采样和重新排列(ReSampling and ReArrangement, ReSA)模块,以减少文档文本的冗余并降低计算成本。其次,引入了可扩展的位置嵌入(Scalable Positional Embeddings, SPEs),以保持不同图像大小的可扩展性。第三,采用查询提案网络(Query Proposal Network, QPN)在不同子图像中动态初始化查询。最后,设计了多级交叉注意力(Multi-Level Cross-Attention, MLCA)机制,以捕捉文档图像的层次结构和语义关系,增强细粒度视觉感知能力。
➡️ 实验设计:研究团队在多个基准数据集上进行了广泛的实验,包括通用和文档导向的MLLM基准。实验结果表明,TextHawk在文档基准和通用基准上均取得了最先进的结果,展示了其在细粒度视觉感知和通用视觉语言能力方面的优越性。此外,研究团队还通过Gemini Pro丰富了多模态文档数据,以缓解指令调优数据不足的问题。

UNIAA: A Unified Multi-modal Image Aesthetic Assessment Baseline and Benchmark

➡️ 论文标题:UNIAA: A Unified Multi-modal Image Aesthetic Assessment Baseline and Benchmark
➡️ 论文作者:Zhaokun Zhou, Qiulin Wang, Bin Lin, Yiwei Su, Rui Chen, Xin Tao, Amin Zheng, Li Yuan, Pengfei Wan, Di Zhang
➡️ 研究机构: 北京大学深圳研究生院、快手科技
➡️ 问题背景:图像美学评估(Image Aesthetic Assessment, IAA)是计算机视觉中的一个重要任务,旨在评估图像的摄影技术和艺术手法。然而,现有的IAA方法通常局限于单一数据集或任务,限制了其通用性和广泛应用。此外,当前的IAA方法与人类美学过程的对齐度不高,且缺乏标准化的数据格式,难以在统一架构下进行训练。
➡️ 研究动机:为了更好地与人类美学对齐,研究团队提出了一种统一的多模态图像美学评估框架(UNIAA),包括一个多模态大语言模型(MLLM)UNIAA-LLaVA和一个全面的基准UNIAA-Bench。该框架旨在整合不同来源和格式的美学数据,并在多个美学子任务中取得良好效果。
➡️ 方法简介:研究团队采用LLaVA架构,并通过美学视觉指令调优数据进一步微调,以获得UNIAA-LLaVA。为了构建调优数据,研究团队提出了一种低成本的IAA数据集转换范式(IDCP),将现有的IAA数据集转换为适合MLLM微调的格式。UNIAA-LLaVA通过视觉编码器的视觉感知和LLM的记忆能力,展示了强大的学习和与人类美学对齐的能力。
➡️ 实验设计:研究团队构建了UNIAA-Bench,从感知、描述和评估三个维度全面评估MLLM的美学能力。UNIAA-Bench包括三个部分:感知部分包含5354个多项选择题,描述部分包含501个专家标注的长文本,评估部分包含4个主流的IAA数据集。实验结果表明,UNIAA-LLaVA在所有层次的UNIAA-Bench上都表现出竞争力,尤其是在美学感知方面,甚至接近初级人类水平。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com