CROME: Cross-Modal Adapters for Efficient Multimodal LLM
➡️ 论文标题:CROME: Cross-Modal Adapters for Efficient Multimodal LLM
➡️ 论文作者:Sayna Ebrahimi, Sercan O. Arik, Tejas Nama, Tomas Pfister
➡️ 研究机构: Google Cloud AI Research
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在图像-语言任务中表现出色,但其广泛应用面临成本效益的训练和适应挑战。现有的方法通常需要昂贵的语言模型再训练和有限的适应性。此外,当前对零样本性能的改进不足以指导特定任务的调优。
➡️ 研究动机:为了克服这些挑战,研究团队提出了一种新的视觉-语言指令调优框架CROME,该框架通过引入轻量级的门控跨模态适配器(CROME-Adapter),在保持参数效率的同时,有效结合视觉和文本表示,从而促进跨模态理解。
➡️ 方法简介:CROME框架包括一个预训练的视觉编码器、查询Transformer(Q-Former)和一个新颖的门控跨模态适配器。适配器在输入到冻结的语言模型之前,对视觉和文本表示进行融合,从而避免了昂贵的语言模型再训练。适配器的设计使得CROME在特定任务的微调过程中,仅需训练适配器部分,从而实现高效、灵活的调优。
➡️ 实验设计:研究团队在多个公开数据集上进行了实验,包括预训练阶段的图像-标题对数据集和指令调优阶段的图像-指令对数据集。实验评估了CROME在零样本和监督微调场景下的性能,并与现有的开源基线模型进行了比较。实验结果表明,CROME在6/8个基准测试中超越了现有的开源模型,特别是在零样本性能和特定任务微调方面表现出色。
MathScape: Evaluating MLLMs in multimodal Math Scenarios through a Hierarchical Benchmark
➡️ 论文标题:MathScape: Evaluating MLLMs in multimodal Math Scenarios through a Hierarchical Benchmark
➡️ 论文作者:Minxuan Zhou, Hao Liang, Tianpeng Li, Zhiyu Wu, Mingan Lin, Linzhuang Sun, Yaqi Zhou, Yan Zhang, Xiaoqin Huang, Yicong Chen, Yujing Qiao, Weipeng Chen, Bin Cui, Wentao Zhang, Zenan Zhou
➡️ 研究机构: 北京大学、百川科技、南开大学、中国科学院大学
➡️ 问题背景:随着多模态大语言模型(Multimodal Large Language Models, MLLMs)的发展,评估这些模型在数学问题中的表现成为了一个重要的研究领域。多模态视觉-文本数学推理是评估MLLMs理解能力和复杂多步骤定量推理能力的关键指标。然而,现有的多模态数学基准测试未能充分整合视觉和文本信息。
➡️ 研究动机:为了填补这一空白,研究团队提出了MathScape,这是一个新的基准测试,强调理解和应用结合的视觉和文本信息。MathScape旨在评估基于照片的数学问题场景,通过分类层次方法评估MLLMs的理论理解和应用能力。
➡️ 方法简介:研究团队设计了一个多维度的评估方法,对11个先进的MLLMs进行了评估,揭示了即使是最先进的模型也面临挑战。通过分析评估结果,研究团队识别了MLLMs的局限性,为提升模型性能提供了有价值的见解。
➡️ 实验设计:实验在三个公开数据集上进行,包括不同类型的数学问题(如选择题、填空题和证明题),不同数学知识领域(如代数、几何、概率和统计),以及不同教育阶段(如小学、初中和高中)。实验设计了两个步骤的评估方法,首先使用大语言模型(LLMs)提取每个子问题的答案,然后使用LLMs作为评估者评估每个解决方案的正确性。
Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities
➡️ 论文标题:Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities
➡️ 论文作者:Enneng Yang, Li Shen, Guibing Guo, Xingwei Wang, Xiaochun Cao, Jie Zhang, Dacheng Tao
➡️ 研究机构: 东北大学(中国)、中山大学(中国)、南洋理工大学(新加坡)
➡️ 问题背景:模型合并(Model Merging)是一种高效的机器学习技术,无需收集原始训练数据,也不需要昂贵的计算资源。随着模型合并技术在各个领域的广泛应用,理解现有的模型合并技术变得尤为重要。然而,目前文献中缺乏对这些技术的系统和全面的综述。
➡️ 研究动机:尽管模型合并是一个相对较新的领域,但其发展迅速,并已在多个领域找到应用。为了填补现有文献中的空白,本综述旨在全面概述模型合并的方法、理论、应用及未来研究方向,提供一个全面的分类框架,以增强对模型合并技术的理解。
➡️ 方法简介:研究团队提出了一种新的分类方法,将现有的模型合并技术分为两个阶段:预合并(Pre-Merging)和合并中(During-Merging)。预合并方法旨在为模型合并创造更好的条件,包括线性化微调、架构转换和权重对齐。合并中方法则专注于设计复杂的合并技术,解决任务冲突和干扰问题,包括基本合并方法、加权合并方法、子空间合并方法、基于路由的合并方法和基于后校准的合并方法。
➡️ 实验设计:研究详细讨论了模型合并技术在基础模型(如大型语言模型、多模态大型语言模型和视觉生成模型)以及超过10个机器学习子领域(如持续学习、多任务学习、少样本学习等)中的应用。实验设计涵盖了模型合并技术在不同场景下的应用,展示了其在解决现有挑战方面的潜力。
MMJ-Bench \textit{MMJ-Bench} MMJ-Bench: A Comprehensive Study on Jailbreak Attacks and Defenses for Multimodal Large Language Models
➡️ 论文标题: MMJ-Bench \textit{MMJ-Bench} MMJ-Bench: A Comprehensive Study on Jailbreak Attacks and Defenses for Multimodal Large Language Models
➡️ 论文作者:Fenghua Weng, Yue Xu, Chengyan Fu, Wenjie Wang
➡️ 研究机构: ShanghaiTech University, China
➡️ 问题背景:随着深度学习的发展,大型语言模型(LLMs)及其多模态变体(Multimodal Large Language Models, MLLMs)在许多实际任务中展现了卓越的性能。然而,MLLMs面临着显著的安全挑战,如越狱攻击(Jailbreak Attacks),攻击者试图绕过模型的安全对齐,以引出有害响应。这种威胁不仅源于LLMs的固有漏洞,还源于MLLMs处理的多种信息渠道。尽管已经提出了各种攻击和防御方法,但在统一和全面评估这些方法方面存在显著差距,因为每种方法都在不同的数据集和评估指标上进行评估,难以比较其有效性。
➡️ 研究动机:为了填补这一空白,研究团队提出了MMJ-Bench,一个用于评估MLLMs越狱攻击和防御技术的统一框架。通过广泛的实验,研究团队评估了各种攻击方法对最先进的MLLMs的有效性,并评估了防御机制对模型在正常任务中的效用和响应时间的影响。
➡️ 方法简介:研究团队设计了一个四步工作流程:数据收集、越狱案例生成、响应生成和评估。数据收集阶段包括有害查询的生成和正常任务数据集的选择。越狱案例生成阶段选择了六种最先进的攻击方法和四种防御方法。响应生成阶段使用了六个来自四个流行模型家族的MLLMs及其变体。评估阶段使用了GPT-4和HarmBench分类器来评估攻击的有效性和防御技术的效果。
➡️ 实验设计:实验在六个MLLMs上进行了,包括LLaVa、MiniGPT4、InstructBlip和Qwen-VL。评估了六种攻击方法(三种生成型攻击和三种优化型攻击)和四种防御方法(一种主动防御和三种反应防御)。评估指标包括攻击成功率(ASR)、检测成功率(DSR)和MM-Vet评分,以全面评估模型在不同条件下的表现。
A Survey on Benchmarks of Multimodal Large Language Models
➡️ 论文标题:A Survey on Benchmarks of Multimodal Large Language Models
➡️ 论文作者:Jian Li, Weiheng Lu, Hao Fei, Meng Luo, Ming Dai, Min Xia, Yizhang Jin, Zhenye Gan, Ding Qi, Chaoyou Fu, Ying Tai, Wankou Yang, Yabiao Wang, Chengjie Wang
➡️ 研究机构: Tencent、PKU、NUS、SEU、NJU
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)因其在视觉问答、视觉感知、理解和推理等应用中的卓越表现,近年来在学术界和工业界受到了广泛关注。然而,尽管MLLMs在多种任务中表现出色,但对其性能的全面评估和理解仍存在不足。
➡️ 研究动机:为了更好地理解MLLMs的优缺点,并为未来的应用和设计提供指导,研究团队对200个MLLMs的评估基准进行了全面回顾,涵盖了感知与理解、认知与推理、特定领域、关键能力和其他模态五个主要方面。研究旨在强调评估在支持MLLMs发展中的重要性,并探讨未来的研究方向。
➡️ 方法简介:研究团队构建了一个包含20-30个子类的评估基准分类体系,涵盖了MLLMs的多个方面。通过分析这些基准,研究团队评估了MLLMs在不同任务中的表现,包括视觉感知、细粒度识别、多模态对话、鲁棒性和安全性等。
➡️ 实验设计:研究团队在多个公开数据集上进行了实验,包括视觉问答(VQA)、细粒度识别、多模态对话等任务。实验设计了不同类型的评估基准,以全面评估MLLMs在不同场景下的表现。此外,研究还统计了自2024年以来在83个基准上表现最佳的前三大MLLMs,结果显示OpenAI的GPT-4和Google的Gemini在多个基准上表现出色。