欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 汽车 > 维修 > 多模态大语言模型arxiv论文略读(115)

多模态大语言模型arxiv论文略读(115)

2025/6/13 20:49:21 来源:https://blog.csdn.net/Jamence/article/details/148548007  浏览:    关键词:多模态大语言模型arxiv论文略读(115)

在这里插入图片描述

A Medical Multimodal Large Language Model for Pediatric Pneumonia

➡️ 论文标题:A Medical Multimodal Large Language Model for Pediatric Pneumonia
➡️ 论文作者:Weiwei Tian, Xinyu Huang, Tianhao Cheng, Wen He, Jinwu Fang, Rui Feng, Daoying Geng, Xiaobo Zhang
➡️ 研究机构: 复旦大学、复旦大学附属儿科医院、复旦大学公共卫生学院、复旦大学附属华山医院
➡️ 问题背景:儿童肺炎是全球5岁以下儿童死亡的主要原因,给受影响的家庭带来了沉重的负担。目前,诊断和治疗儿童肺炎面临三大挑战:1) 儿童肺炎与其他呼吸道疾病的症状相似,难以快速准确地进行鉴别诊断;2) 基层医院缺乏足够的医疗资源和经验丰富的医生;3) 提供个性化的诊断报告和治疗建议耗时且劳动密集。为了解决这些挑战,研究团队提出了一个专门针对儿童肺炎的医疗多模态大语言模型(P2Med-MLLM)。
➡️ 研究动机:现有的深度学习技术在识别儿童呼吸道疾病、早期分诊和预测临床结果方面已经达到了或接近人类专家的水平,但这些模型主要将临床任务视为简单的分类或回归问题,未能提供详细的诊断依据和治疗建议。此外,现有的多模态大语言模型(MLLMs)虽然在一般领域取得了显著进展,但在实际临床应用中仍存在不足,主要原因是这些模型主要基于互联网上的医学教科书和文献训练,缺乏真实和全面的医疗数据。因此,研究团队旨在探索使用真实临床数据训练MLLMs在儿童肺炎中的可行性。
➡️ 方法简介:研究团队构建了首个大规模中文儿童肺炎多模态数据集(P2Med-MD),包含163,999例门诊和8,684例住院的真实临床信息,涵盖了2D胸部X光图像、3D胸部CT图像、相应的放射学报告、门诊记录和住院记录。P2Med-MLLM结合了一个大语言模型(LLM,Chinese-LLaMA-2)、一个预训练的视觉编码器(CLIP)和一个感知模块,通过三个阶段的训练策略,使模型能够处理多种模态、序列和时间序列数据输入,并生成多种任务的输出。
➡️ 实验设计:研究团队在六个临床决策支持任务上进行了实验,包括X光和CT放射学报告生成、门诊病历生成、首次病程记录生成、主治医师首次查房记录生成和主任医师首次查房记录生成。实验使用了P2Med-MBench基准,该基准由儿科呼吸科专家精心验证的642个样本组成,涵盖了多种疾病类别和临床任务。实验结果表明,P2Med-MLLM在多个任务上表现出色,显著优于其他开源大语言模型。

LongLLaVA: Scaling Multi-modal LLMs to 1000 Images Efficiently via a Hybrid Architecture

➡️ 论文标题:LongLLaVA: Scaling Multi-modal LLMs to 1000 Images Efficiently via a Hybrid Architecture
➡️ 论文作者:Xidong Wang, Dingjie Song, Shunian Chen, Chen Zhang, Benyou Wang
➡️ 研究机构: The Chinese University of Hong Kong, Shenzhen、Shenzhen Research Institute of Big Data
➡️ 问题背景:多模态大语言模型(MLLMs)在视频理解、高分辨率图像理解和多模态代理等应用中展现出显著的能力。然而,当处理多图像任务时,这些模型的性能显著下降,且计算成本高。扩展MLLMs的上下文长度以处理更多图像,成为提升其应用范围和用户体验的关键挑战。
➡️ 研究动机:现有的研究和解决方案在处理多图像任务时,要么性能下降,要么计算成本过高。为了克服这些挑战,研究团队提出了一种系统性的解决方案——LongLLaVA,通过优化多模态架构、数据构建和训练策略,旨在平衡性能和效率,特别是在处理多图像长上下文任务时。
➡️ 方法简介:研究团队提出了一个混合架构,结合了Mamba和Transformer块,以减少计算复杂度并保持性能。此外,团队还设计了独特的数据格式,以区分图像之间的时空依赖关系,并采用逐步训练策略,逐步增强模型处理多模态长上下文的能力。
➡️ 实验设计:实验在三个公开数据集上进行,包括MileBench、Video-MME和MVBench,评估了LongLLaVA在多图像任务中的表现。实验结果表明,LongLLaVA不仅在多图像长上下文任务中表现出色,而且在处理大量图像时具有高效率和低内存消耗。特别是,LongLLaVA能够在单个80GB GPU上处理近1000张图像,展示了其在多种任务中的广泛应用前景。

HiPrompt: Tuning-free Higher-Resolution Generation with Hierarchical MLLM Prompts

➡️ 论文标题:HiPrompt: Tuning-free Higher-Resolution Generation with Hierarchical MLLM Prompts
➡️ 论文作者:Xinyu Liu, Yingqing He, Lanqing Guo, Xiang Li, Bu Jin, Peng Li, Yan Li, Chi-Min Chan, Qifeng Chen, Wei Xue, Wenhan Luo, Qifeng Liu, Yike Guo
➡️ 研究机构: Hong Kong University of Science and Technology (HKUST), Nanyang Technological University (NTU), Tsinghua University, University of Chinese Academy of Sciences (UCAS)
➡️ 问题背景:当前的预训练扩散模型在生成高分辨率图像时面临物体重复和结构伪影等问题,尤其是在扩展到4K分辨率及以上时。这些问题主要是由于单个提示在生成多尺度图像时提供的效能不足,导致局部和全局语义不匹配。
➡️ 研究动机:为了解决高分辨率图像生成中的物体重复和结构伪影问题,研究团队提出了一种无需微调的解决方案——HiPrompt。该方法通过引入层次化提示,提供全局和局部引导,以解决现有方法中局部和全局语义不匹配的问题。
➡️ 方法简介:HiPrompt通过用户输入的全局提示和多模态语言模型(MLLMs)生成的局部提示,提供多层次的语义引导。具体来说,全局提示描述整体内容,而局部提示则利用MLLMs生成的补丁描述,精细引导区域结构和纹理生成。此外,HiPrompt在逆去噪过程中将生成的噪声分解为低频和高频空间组件,并根据多层次提示对这些组件进行条件化处理,以实现层次化语义引导下的提示引导去噪。
➡️ 实验设计:研究团队在Laion-5B数据集上进行了广泛的实验,包括不同分辨率(2048×2048, 2048×4096, 4096×4096)的图像生成任务。实验评估了HiPrompt在减少物体重复、提高结构质量和生成图像的细节准确性方面的表现,并与现有的几种方法进行了对比。实验结果表明,HiPrompt在多个指标上显著优于现有方法,特别是在FIDr和FIDc指标上表现突出。

No Detail Left Behind: Revisiting Self-Retrieval for Fine-Grained Image Captioning

➡️ 论文标题:No Detail Left Behind: Revisiting Self-Retrieval for Fine-Grained Image Captioning
➡️ 论文作者:Manu Gaur, Darshan Singh S, Makarand Tapaswi
➡️ 研究机构: CVIT, IIIT Hyderabad, India
➡️ 问题背景:当前的图像描述系统(Image Captioning Systems)在生成细粒度描述方面存在不足,主要原因是训练数据的噪声和泛化性,以及最大似然估计(MLE)训练方法的局限性。这些系统往往生成通用的描述,无法区分相似的图像,违背了图像描述的基本目的,即准确高效地传达视觉内容。
➡️ 研究动机:为了克服现有图像描述系统的局限性,研究团队提出了一种新的框架,旨在通过改进训练数据和评估方法,提高图像描述的细粒度和准确性。具体来说,研究团队提出了Visual Caption Boosting (VCB)框架,用于生成密集且信息丰富的图像描述,同时保持与人类注释的一致性。此外,还引入了TrueMatch基准,用于评估图像描述系统在细粒度视觉区分方面的能力。
➡️ 方法简介:研究团队提出了Visual Caption Boosting (VCB)框架,通过结合多个注释者的描述和多模态大语言模型(MLLM)生成的描述,生成综合且细粒度的图像描述。此外,还设计了TrueMatch基准,包含了一系列高度相似的图像集,用于评估图像描述系统在细粒度视觉区分方面的能力。最后,研究团队提出了一种新的训练方法,通过自检索(SR)奖励信号,逐步增加训练集的难度,以提高模型的细粒度描述能力和生成描述的准确性。
➡️ 实验设计:研究团队在COCO数据集上进行了实验,评估了不同方法生成的图像描述在不同基准上的表现。实验结果表明,VCB生成的描述在自检索(SR)任务中显著优于原始COCO注释和混合注释(BlendCap),尤其是在TrueMatch基准上,表现尤为突出。此外,研究团队还评估了不同模型在TrueMatch上的表现,发现即使参数量较小的模型,通过SR训练也能显著提高细粒度视觉区分能力。

TC-LLaVA: Rethinking the Transfer from Image to Video Understanding with Temporal Considerations

➡️ 论文标题:TC-LLaVA: Rethinking the Transfer from Image to Video Understanding with Temporal Considerations
➡️ 论文作者:Mingze Gao, Jingyu Liu, Mingda Li, Jiangtao Xie, Qingbin Liu, Bo Zhao, Xi Chen, Hui Xiong
➡️ 研究机构: The Hong Kong University of Science and Technology (Guangzhou), Tencent PCG, The Hong Kong University of Science and Technology, Dalian University of Technology
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在图像-语言应用中显著提升了性能。然而,将这些模型从单图像任务转移到视频理解任务时,大多数研究集中在增强视觉编码器和投影器组件,而核心部分——大语言模型(LLMs)则相对较少被探索。这导致了视频理解任务中模型对动态事件的捕捉能力不足,尤其是在处理复杂运动变化的活动时,如舞蹈或体操。
➡️ 研究动机:为了提高视频理解任务中模型的性能,研究团队提出了两种策略来增强LLMs中的层间注意力计算。这些策略旨在加强模型的时间建模能力,同时保持视觉和文本令牌之间的相对位置关系,从而提高模型对视频内容的理解和处理能力。
➡️ 方法简介:研究团队提出了时间感知双重旋转位置编码(Temporal-Aware Dual RoPE)和帧级块因果注意力掩码(Frame-wise Block Causal Attention Mask)两种方法。Temporal-Aware Dual RoPE通过引入时间位置信息,增强了MLLMs的时间建模能力,同时保留了视觉和文本令牌的相对位置关系。Frame-wise Block Causal Attention Mask则通过扩大视频帧内和跨帧的视觉令牌交互,同时保持因果推理机制,提高了模型的视觉令牌交互能力。
➡️ 实验设计:研究团队在多个视频理解基准数据集上进行了实验,包括MSVD-QA、MSRVTT-QA、ActivityNet-QA和TGIF-QA。实验结果表明,TC-LLaVA在这些基准上达到了新的最先进性能,仅通过在视频相关数据集上的监督微调(SFT)就实现了这一目标。此外,TC-LLaVA在视频问答任务的评分指标上也表现出色,超越了当前最先进的模型。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词