每日论文 - 2025年08月19日
论文总数: 19
1. Ovis2.5 Technical Report
作者: Shiyin Lu, Yang Li, Yu Xia, Yuwei Hu, Shanshan Zhao, Yanqing Ma, Zhichao Wei, Yinglun Li, Lunhao Duan, Jianshan Zhao, Yuxuan Han, Haijun Li, Wanying Chen, Junke Tang, Chengkun Hou, Zhixing Du, Tianli Zhou, Wenjie Zhang, Huping Ding, Jiahe Li, Wen Li, Gui Hu, Yiliang Gu, Siran Yang, Jiamang Wang, Hailong Sun, Yibo Wang, Hui Sun, Jinlong Huang, Yuping He, Shengze Shi, Weihong Zhang, Guodong Zheng, Junpeng Jiang, Sensen Gao, Yi-Feng Wu, Sijia Chen, Yuhui Chen, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-15 | 👍 点赞数: 95
摘要:
我们推出Ovis2.5,这是为原生分辨率视觉感知和强大多模态推理而设计的Ovis2的继任者。Ovis2.5集成了一种原生分辨率视觉变换模型(vision transformer),能够以图像的原始、可变分辨率进行处理,避免了固定分辨率分块带来的性能退化,并保留了细节和全局布局——这对于复杂图表等视觉密集型内容至关重要。为了增强推理能力,我们训练模型突破线性思维链(chain-of-thought)并执行反思(reflection)——包括自我检查和修正。这一高级功能在推理时作为可选的“思考模式”提供,允许用户以延迟为代价换取在复杂输入上的更高准确性。该模型通过一个渐进式构建其能力的五阶段课程进行训练。训练过程从基础的视觉与多模态预训练开始,继而进行大规模指令微调,最终通过DPO和GRPO实现对齐与推理能力的增强。为了高效扩展这些升级,我们采用了多模态数据打包和混合并行策略,从而实现了显著的端到端加速。我们发布了两个开源模型:Ovis2.5-9B和Ovis2.5-2B。后者延续了Ovis2“小模型、大性能”的理念,非常适合资源受限的设备端应用场景。在OpenCompass多模态排行榜上,Ovis2.5-9B平均得分为78.3,显著优于其前身Ovis2-8B,并在40B参数以下的开源多模态大语言模型(MLLM)中达到最先进的水平;Ovis2.5-2B得分为73.9,确立了其规模下的SOTA地位。除了综合得分外,Ovis2.5在STEM基准测试中也取得了领先成果,在定位(grounding)和视频任务上表现出色,并在复杂图表分析方面实现了其规模下的开源SOTA性能。
2. ComoRAG: A Cognitive-Inspired Memory-Organized RAG for Stateful Long
Narrative Reasoning
作者: Juyuan Wang, Rongchen Zhao, Wei Wei, Yufeng Wang, Mo Yu, Jie Zhou, Jin Xu, Liyan Xu
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-14 | 👍 点赞数: 66
摘要:
摘要:长篇故事和小说的叙事理解一直是一个具有挑战性的领域,这归因于其复杂的故事情节以及人物和实体之间相互交织且常常演变的关系。鉴于大语言模型(LLM)在长上下文中的推理能力下降以及计算成本较高,基于检索的方法在实践中仍然具有关键作用。然而,传统RAG方法可能因其无状态、单步骤的检索过程而存在不足,这种过程往往忽略了在长距离上下文中捕捉相互关联关系的动态特性。本研究提出ComoRAG,其核心理念是:叙事推理并非一次性完成,而是类似于人类在利用记忆相关信号进行推理时的动态过程,表现为新证据获取与已有知识整合之间的不断演进互动。具体而言,当遇到推理瓶颈时,ComoRAG会在与动态记忆工作区交互的过程中经历迭代推理周期。在每个周期中,系统生成探测性查询以设计新的探索路径,随后将检索到的新方面证据整合进全局记忆池,从而支持查询求解所需的连贯上下文的形成。在四个具有挑战性的长上下文叙事基准数据集(超过200K个token)上,ComoRAG相较于强大的RAG基线方法表现出更优性能,相较最强基线方法取得了最高达11%的一致相对提升。进一步分析表明,ComoRAG在需要全局理解的复杂查询任务中具有显著优势,为基于检索的长上下文理解提供了一种有理论依据、受认知启发的状态化推理范式。我们的代码已公开发布于https://github.com/EternityJune25/ComoRAG。
3. 4DNeX: Feed-Forward 4D Generative Modeling Made Easy
作者: Zhaoxi Chen, Tianqi Liu, Long Zhuo, Jiawei Ren, Zeng Tao, He Zhu, Fangzhou Hong, Liang Pan, Ziwei Liu
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-18 | 👍 点赞数: 53
摘要:
我们提出4DNeX,这是首个通过单张图像生成4D(即动态3D)场景表示的前馈框架。与现有方法相比,4DNeX无需依赖计算密集型的优化过程或需要多帧视频输入,而是通过微调预训练视频扩散模型,实现了高效的端到端图像到4D生成。具体而言:1)为缓解4D数据稀缺的问题,我们构建了4DNeX-10M,这是一个利用先进重建方法生成高质量4D标注的大规模数据集;2)我们引入了一种统一的6D视频表示方法,联合建模RGB和XYZ序列,从而促进对表观和几何结构的有组织学习;3)我们提出了一系列简单而有效的适配策略,将预训练视频扩散模型重新用于4D建模。4DNeX能够生成高质量的动态点云,支持新视角视频的合成。广泛的实验表明,4DNeX在效率和泛化能力方面均优于现有的4D生成方法,为图像到4D建模提供了可扩展的解决方案,并为能够模拟动态场景演化的生成式4D世界模型奠定了基础。
4. Speed Always Wins: A Survey on Efficient Architectures for Large
Language Models
作者: Weigao Sun, Jiaxi Hu, Yucheng Zhou, Jusen Du, Disen Lan, Kexin Wang, Tong Zhu, Xiaoye Qu, Yu Zhang, Xiaoyu Mo, Daizong Liu, Yuxuan Liang, Wenliang Chen, Guoqi Li, Yu Cheng
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-13 | 👍 点赞数: 45
摘要:
大型语言模型(Large Language Models,LLMs)在语言理解、生成、推理等方面取得了显著成果,并不断拓展多模态模型的能力边界。作为现代LLMs的基础,Transformer模型凭借其优异的扩展特性提供了强大的基线性能。然而,传统的Transformer架构需要大量的计算资源,在大规模训练和实际部署中面临显著挑战。本综述系统地探讨了旨在克服Transformer固有局限性并提升效率的新型LLM架构。从语言建模出发,本文涵盖了线性与稀疏序列建模方法、高效的全注意力变体、稀疏混合专家模型、融合上述技术的混合架构,以及新兴的扩散式LLMs的背景与技术细节。此外,我们还讨论了这些技术在其他模态中的应用,并探讨了其在构建可扩展、资源感知的基础模型方面的广泛意义。通过将近期研究归入上述分类,本综述为现代高效的LLM架构提供了一个蓝图,希望为推动更高效、更通用的人工智能系统的研究提供启发。
5. Next Visual Granularity Generation
作者: Yikai Wang, Zhouxia Wang, Zhonghua Wu, Qingyi Tao, Kang Liao, Chen Change Loy
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-18 | 👍 点赞数: 42
摘要:
我们提出了一种新的图像生成方法,该方法通过将图像分解为一个结构化序列,其中序列中的每个元素具有相同的空间分辨率,但使用的唯一标记(token)数量不同,从而捕捉不同层次的视觉粒度(granularity)。图像生成通过我们新提出的“下一视觉粒度”(Next Visual Granularity, NVG)生 成框架实现,该框架从一个空白图像开始,逐步生成视觉粒度序列,以结构化的方式从全局布局到细节进行逐步优化。这一迭代过程编码了一种层次化、分层的表示方法,能够在多个粒度层面上对生成过程提供细粒度控制。我们在ImageNet数据集上训练了一系列用于类别条件图像生成的NVG模型,并观察到了明显的模型缩放效应。与VAR系列模型相比,NVG在FID得分上始终表现更优(3.30 → 3.03,2.57 → 2.44,2.09 → 2.06)。我们还进行了广泛的分析,以展示NVG框架的能力与潜力。我们的代码和模型将公开发布。
6. S^2-Guidance: Stochastic Self Guidance for Training-Free Enhancement of
Diffusion Models
作者: Chubin Chen, Jiashu Zhu, Xiaokun Feng, Nisha Huang, Meiqi Wu, Fangyuan Mao, Jiahong Wu, Xiangxiang Chu, Xiu Li
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-18 | 👍 点赞数: 39
摘要:
S^2-Guidance: 一种面向无训练扩散模型增强的随机自引导方法
无分类器引导(Classifier-free Guidance, CFG)是当前扩散模型中广泛采用的一种技术,用于提升生成样本的质量和对提示词的匹配度。然而,通过在具有闭 合解的高斯混合模型上的实证分析,我们发现CFG生成的次优结果与真实情况之间存在偏差。模型对这些次优预测的过度依赖常常导致语义不连贯和低质量输出。为了解决这一问题,我们首先通过实验证明,模型自身的子网络可以有效优化这些次优预测。基于这一发现,我们提出了S^2-Guidance,一种新颖的方法,在前向过程中利用随机模块丢弃构建随机子网络,从而有效地引导模型远离潜在的低质量预测,趋向高质量输出。在文本到图像和文本到视频生成任务上的大量定性和定量实验表明,S^2-Guidance表现出色,持续优于CFG及其他先进的引导策略。我们的代码将公开发布。
7. When Punctuation Matters: A Large-Scale Comparison of Prompt Robustness
Methods for LLMs
作者: Mikhail Seleznyov, Mikhail Chaichuk, Gleb Ershov, Alexander Panchenko, Elena Tutubalina, Oleg Somov
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-15 | 👍 点赞数: 36
摘要:
当标点符号产生影响:一种改进大语言模型提示鲁棒性方法的大规模比较研究
大语言模型(Large Language Models, LLMs)对提示语的措辞和格式中细微的 非语义变化高度敏感。在本研究中,我们在统一的实验框架内对5种提升提示鲁棒性的方法进行了首次系统性评估。我们在来自Llama、Qwen和Gemma系列的8个模型上,基于Natural Instructions数据集的52个任务对这些技术进行了基准测试。我们的评估涵盖了来自微调和上下文学习范式的鲁棒性方法,并测试了它们在多种分布偏移情况下的泛化能力。最后,我们还将分析扩展至GPT-4.1和DeepSeek V3,以评估前沿模型当前对格式扰动的鲁棒性。我们的研究结果为这些鲁棒性方法的相对有效性提供了可操作的见解,帮助从业者在追求大语言模型于实际应用中的稳定和可靠表现时做出有依据的决策。代码:https://github.com/AIRI-Institute/when-punctuation-matters。
8. Has GPT-5 Achieved Spatial Intelligence? An Empirical Study
作者: Zhongang Cai, Yubo Wang, Qingping Sun, Ruisi Wang, Chenyang Gu, Wanqi Yin, Zhiqian Lin, Zhitao Yang, Chen Wei, Xuanke Shi, Kewang Deng, Xiaoyang Han, Zukai Chen, Jiaqi Li, Xiangyu Fan, Hanming Deng, Lewei Lu, Bo Li, Ziwei Liu, Quan Wang, Dahua Lin, Lei Yang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布 日期: 2025-08-18 | 👍 点赞数: 27
摘要:
多模态模型近年来取得了显著进展。然而,它们在空间理解与推理方面仍存在明显局限,而这些能力是实现通用人工智能的关键。随着据称迄今为止最强大的人工智能模型GPT-5的发布,及时评估当前领先模型在通往空间智能道路上的表现具有重要意义。首先,我们提出了一个统一现有基准的空间任务综合分类法,并讨论了确保公平评估所面临的挑战。随后,我们在八个关键基准上评估了最先进的专有和开源模型,测试成本超过十亿个总token。我们的实证研究表明:(1)GPT-5在空间智能方面展现出前所未有的强大能力,但(2)在广泛的任务中仍未能达到人类水平。此外,我们(3)识别出多模态模型面临的更具挑战性的空间智能问题,并发现(4)在面对最困难的问题时,专有模型并未表现出决定性的优势。此外,我们还在一系列对人类而言直观但即使最先进的多模态模型也失败的场景中进行了定性评估。
9. HeroBench: A Benchmark for Long-Horizon Planning and Structured
Reasoning in Virtual Worlds
作者: Petr Anokhin, Roman Khalikov, Stefan Rebrikov, Viktor Volkov, Artyom Sorokin, Vincent Bissonnette
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-18 | 👍 点赞数: 22
摘要:
HeroBench: 用于虚拟世界中长视野规划与结构化推理的基准测试
大型语言模型(LLMs)在诸如数学和编程等孤立的逐步推理任务中展现出卓越的能力,但它们在长视野规划方面的熟练程度,即需要一系列相互关联的扩展性结构化操作来解决问题的能力,仍未得到充分研究。现有的基准测试通常通过抽象或低维度的算法任务来评估LLMs,未能捕捉现实规划环境中复杂的特性。我们提出了HeroBench,一个新颖的基准测试,专门用于评估复杂角色扮演类(RPG)虚拟世界中的长视野规划与结构化推理能力。HeroBench提供了一个严格构建的任务数据集,涵盖广泛的难度层次,同时提供一个模拟环境以执行和验证智能体的规划,以及详细的分析工具来评估模型性能。这些任务挑战模型制定战略计划、高效收集资源、掌握必要技能、制作装备以及击败对手的能力,反映了实际场景中多层次的依赖关系和约束条件。我们对25种最先进的LLMs进行了广泛的评估,涵盖开源和专有模型,包括GPT-5系列模型,结果揭示了在传统推理基准测试中很少观察到的显著性能差异。详细的错误分析进一步揭示了当前模型在生成稳健的高层规划以及可靠执行结构化操作方面存在的具体缺陷。因此,HeroBench不仅显著推进了LLM推理能力的评估,还为未来关于虚拟环境中高级自主规划的研究提供了一个灵活且可扩展的基础。
10. Matrix-Game 2.0: An Open-Source, Real-Time, and Streaming Interactive
World Model
作者: Xianglong He, Chunli Peng, Zexiang Liu, Boyang Wang, Yifan Zhang, Qi Cui, Fei Kang, Biao Jiang, Mengyin An, Yangyang Ren, Baixin Xu, Hao-Xiang Guo, Kaixiong Gong, Cyrus Wu, Wei Li, Xuchen Song, Yang Liu, Eric Li, Yahui Zhou
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-18 | 👍 点赞数: 19
摘要:
近期在交互式视频生成方面的进展表明,扩散模型在捕捉复杂物理动态和交互行为方面展现出作为世界模型的潜力。然而,现有的交互式世界模型依赖双向注意力机制和较长的推理步骤,严重限制了其实时性能。因此,它们难以模拟现实世界中的动态场景,其中的结果必须根据历史上下文和当前动作即时更新。为解决这一问题,我们提出Matrix-Game 2.0,这是一种通过少步自回归扩散实时生成长视频的交互式世界模型。我们的框架包含三个关键组件:(1)一个可扩展的数据生成流水线,适用于Unreal Engine和GTA5环境,能够高效生成大量(约1200小时)具有多样化交互标注的视频数据;(2)一个动作注入模块,支持将逐帧的鼠标和键盘输入作为交互条件;(3)基于因果架构的少步蒸馏方法,实现快速、流式视频生成。Matrix-Game 2.0能够在多种场景下以每秒25帧的超快速度生成高质量的分钟级视频。我们已开源模型权重和代码库,以推动交互式世界建模领域的研究进展。
11. Representing Speech Through Autoregressive Prediction of Cochlear Tokens
作者: Greta Tuckute, Klemen Kotar, Evelina Fedorenko, Daniel L. K. Yamins
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-15 | 👍 点赞数: 14
摘要:
我们提出了一种受生物启发的语音编码模型AuriStream,该模型通过一个两阶段框架,模拟人类听觉处理的层级结构。第一阶段将原始音频转换为基于人类耳蜗特性的时频表示,并从中提取离散的耳蜗标记(cochlear tokens)。第二阶段在耳蜗标记上应用自回归序列模型。AuriStream能够学习有意义的音素和词表示,并实现当前最先进的词汇语义表征。AuriStream在多样化的下游SUPERB语音任务中表现出具有竞争力的性能。除了强大的表征能力外,AuriStream还能够生成音频的延续,这些延续可以在频谱图空间中可视化,并解码回原始音频,从而提供对模型预测机制的洞察。总之,我们提出了一种用于语音表征学习的两阶段框架,旨在推动能够高效处理多种语音任务的类人模型的发展。
12. Lumen: Consistent Video Relighting and Harmonious Background Replacement
with Video Generative Models
作者: Jianshu Zeng, Yuxuan Liu, Yutong Feng, Chenxuan Miao, Zixiang Gao, Jiwang Qu, Jianzhang Zhang, Bin Wang, Kun Yuan
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-18 | 👍 点赞数: 10
摘要:
视频重光照是一项具有挑战性但有价值的课题,旨在替换视频背景的同时相应调整前景光照,实现和谐的融合。在转换过程中,保留前景的原始属性(如反照率)并保持时间帧之间重光照的一致性至关重要。本文提出Lumen,一种基于大规模视频生成模型的端到端视频重光照框架,支持灵活的文本描述以指导光照和背景的控制。考虑到高质量配对视频(前景相同但光照条件不同)的稀缺性,我们构建了一个包含真实与合成视频的大规模数据集。在合成领域,受益于社区中丰富的3D资源,我们利用先进的3D渲染引擎在多样化环境中生成视频对。在真实领域,我们采用基于HDR的光照模拟方法,以弥补野外场景中配对视频的不足。依托上述数据集,我们设计了一种联合训练策略,有效发挥各领域的优势:合成视频中的物理一致性,以及真实视频中的广义领域分布。为实现这一点,我们在模型中 注入领域感知适配器,以解耦重光照学习与领域外观分布的学习。我们构建了一个全面的基准测试,从前景保留和视频一致性评估的角度,将Lumen与现有方法一同进行评测。实验结果表明,Lumen能够将输入视频编辑为具有连贯光照和严格前景保留的电影级重光照视频。我们的项目页面:https://lumen-relight.github.io/
13. G-CUT3R: Guided 3D Reconstruction with Camera and Depth Prior
Integration
作者: Ramil Khafizov, Artem Komarichev, Ruslan Rakhimov, Peter Wonka, Evgeny Burnaev
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-15 | 👍 点赞数: 10
摘要:
我们提出G-CUT3R,一种新颖的前馈式引导三维场景重建方法,通过融合先验信息对CUT3R模型进行了改进。与现有仅依赖输入图像的前馈方法不同,我们的方法利用了在实际场景中常见的辅助数据,例如深度信息、相机标定参数或相机位置。我们对CUT3R进行了轻量级改进,为每种模态引入了专用编码器以提取特征,并通过零卷积将这些特征与RGB图像令牌进行融合。这种灵活的设计使得在推理过程中能够无 缝集成任意组合的先验信息。在多个基准测试(包括三维重建和其他多视角任务)上的评估结果表明,我们的方法在有效利用可用先验信息的同时,保持了对不同输入模态的兼容性,并展现出显著的性能提升。
14. Precise Action-to-Video Generation Through Visual Action Prompts
作者: Yuang Wang, Chao Wen, Haoyu Guo, Sida Peng, Minghan Qin, Hujun Bao, Xiaowei Zhou, Ruizhen Hu
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-18 | 👍 点赞数: 9
摘要:
我们提出了视觉动作提示(visual action prompts),这是一种统一的动作表示方法,用于生成具有复杂高自由度交互的视频,同时在不同领域中保持可迁移的视觉动态特性。动作驱动的视频生成面临精确性与通用性之间的权衡:现有方法使用文本、原始动作或粗略掩码虽然具备通用性,但缺乏精确性;而以智能体为中心的动作信号虽然精确,却牺牲了跨领域的可迁移性。为了平衡动作的精确性与动态特性的可迁移性,我们提出将动作“渲染”为精确的视觉提示,作为与领域无关的表示形式,既能保留几何精确性,又具备跨领域适应性以应对复杂动作;具体而言 ,我们选择视觉骨架(visual skeletons)因其通用性和可获取性。我们提出了鲁棒的构建流程,从两种富含交互的数据源——人体-物体交互(HOI)和灵巧的机器人操作——中构建骨架,从而实现动作驱动生成模型的跨域训练。通过轻量级微调方式将视觉骨架集成到预训练的视频生成模型中,我们实现了对复杂交互的精确动作控制,同时保留了对跨领域动态特性的学习能力。在EgoVid、RT-1和DROID数据集上的实验验证了我们方法的有效性。项目页面:https://zju3dv.github.io/VAP/。
15. Reinforcement Learning with Rubric Anchors
作者: Zenan Huang, Yihong Zhuang, Guoshan Lu, Zeyu Qin, Haokai Xu, Tianyu Zhao, Ru Peng, Jiaqi Hu, Zhanming Shen, Xiaomeng Hu, Xijun Gu, Peiyi Tu, Jiaxin Liu, Wenyu Chen, Yuzhuo Fu, Zhiting Fan, Yanmei Gu, Yuanyuan Wang, Zhengkai Yang, Jianguo Li, Junbo Zhao
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-18 | 👍 点赞数: 8
摘要:
强化学习与评分标准锚定
摘要:
基于可验证奖励的强化学习(Reinforcement Learning from Verifiable Rewards, RLVR)已成为增强大语言模型(Large Language Models, LLMs)的一种强大范式,以OpenAI的o系列的成功为代表。在RLVR中,奖励来源于可验证的信号,例如代码生成中通过单元测试或数学推理中匹配正确答案。尽管有效,这一要求使RLVR主要局限于具有自动可验证结果的领域。为克服这一限制,我们通过引入基于评分标准(rubric-based)的奖励,将RLVR范式扩展到开放性任务,其中精心设计的评分标准作为结构化、模型可解释的标准,用于对主观输出进行自动评分。据我们所知,我们构建了迄今为止最大的评分标准奖励系统,包含来自人类、LLMs或人类-LLM协作的超过10,000条评分标准。实现基于评分标准的强化学习具有挑战性;我们通过一个清晰的框架解决这些问题,并开源了一个名为Qwen-30B-A3B的模型,取得了显著提升:1)仅使用5,000+个样本,我们的系统在开放性任务基准测试(尤其是人文学科)上提升了+5.2%,在不损害通用性和推理能力的前提下,表现优于671B参数的DeepSeek-V3模型+2.4%;2)我们的方法提供了细粒度的风格控制,利用评分标准作为锚点,缓解“AI化”的语气,生成更接近人类、更具表现力的回应。我们分享了在评分标准构建、数据选择和训练中的关键经验,并讨论了其局限性及未来发布计划。
16. Inverse-LLaVA: Eliminating Alignment Pre-training Through Text-to-Vision
Mapping
作者: Xuhui Zhan, Tyler Derr
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-17 | 👍 点赞数: 8
摘要:
传统多模态学习方法通常需要昂贵的对齐预训练来连接视觉和语言模态,典型的方法是将视觉特征投影到离散的文本token空间。我们通过提出Inverse-LLaVA挑战这一范式的两个基本假设,这是一种完全消除对齐预训练并反转传统映射方向的新方法。与将视觉特征投射到文本空间不同,我们的方法将文本嵌入映射到连续的视觉表示空间,并在Transformer中间层内执行融合。通过在注意力机制中使用选择性加法组件,我们实现了视觉和文本表示的动态集成,而无需大规模图像-文本对齐数据集。在九个多模态基准上的全面实验表明了性能权衡的细微差别:Inverse-LLaVA在需要大量推理和认知的任务上取得了显著改进(MM-VET:+0.2%,VizWiz:+1.8%,ScienceQA:+0.2%,认知推理:+27.2%),而在需要记忆视觉-文本关联的感知任务中则出现了预期的下降(名人识别:-49.5%,OCR:-21.3%)。这些结果首次提供了实证证据,表明对齐预训练对于有效的多模态学习并非必需,特别是对于复杂的推理任务而言。我们的研究确立了一种新范式的可行性,该范式可将计算需求减少45%,挑战了关于模态融合的传统认知,并为高效保留模态特有特征的多模态架构开辟了新的研究方向。项目的网站包含代码和额外资源,网址为https://inverse-llava.github.io。
17. Unlearning Comparator: A Visual Analytics System for Comparative
Evaluation of Machine Unlearning Methods
作者: Jaeung Lee, Suhyeon Yu, Yurim Jang, Simon S. Woo, Jaemin Jo
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-18 | 👍 点赞数: 4
摘要:
机器遗忘(Machine Unlearning, MU)旨在从已训练的模型中移除目标训练数据,以确保这些数据不再影响模型的行为,从而满足数据隐私法规中“被遗忘权”的要求。然而,我们注意到,在这一快速发展的领域中,研究人员在分析和理解不同MU方法的行为方面面临挑战,尤其是在MU的三个基本原则——准确性、效率和隐私性方面。因此,他们通常依赖聚合指标和临时评估方法,难以准确评估不同方法之间的权衡。为填补这一空白,我们提出了一种可视分析系统Unlearning Comparator,旨在促进对MU方法的系统评估。该系统支持评估过程中的两个重要任务:模型比较与攻击模拟。首先,它允许用户在类别级、实例级和层次级上对两个模型的行为进行比较,例如由某种方法生成的模型与重新训练的基线模型,从而更好地理解遗忘后的变化。其次,我们的系统模拟成员推理攻击(Membership Inference Attacks, MIAs)以评估方法的隐私性,其中攻击者试图判断特定数据样本是否属于原始训练集。我们通过一个案例研究对主流MU方法进行了可视化分析,结果表明该系统不仅有助于用户理解模型行为,还能提供洞见以指导MU方法的改进。
18. Beyond Solving Math Quiz: Evaluating the Ability of Large Reasoning
Models to Ask for Information
作者: Youcheng Huang, Bowen Qin, Chen Huang, Duanyu Feng, Xi Yang, Wenqiang Lei
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-15 | 👍 点赞数: 3
摘要:
大型推理模型(Large Reasoning Models,LRMs)在数学问题求解方面展现了卓越的能力,这主要通过现有基准测试中对定义明确的问题进行评估所得出。然而,这种评估方式存在一个关键缺陷,因为一个真正具备智能的主体不仅应能解决问题(如数学测验解答器),还应在问题信息不足时主动请求信息,从而在响应用户需求时表现出主动性。为弥补这一不足,我们提出了一种新的数据集,包含两种类型的信息不完整问题,且涵盖多种背景情境。基于该数据集对LRMs的系统评估揭示了其在主动请求信息方面的能力欠缺。此外,我们还揭示了LRMs在推理过程中存在过度思考(overthinking)和幻觉(hallucination)等行为,并强调了监督微调在学习该能力方面的潜力与挑战。我们希望为开发具备真正智能的LRMs提供新的思路,而不仅仅局限于问题求解。
19. RotBench: Evaluating Multimodal Large Language Models on Identifying
Image Rotation
作者: Tianyi Niu, Jaemin Cho, Elias Stengel-Eskin, Mohit Bansal
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-19 | 👍 点赞数: 1
摘要:
我们研究了多模态大语言模型(Multimodal Large Language Models, MLLMs)在识别输入图像旋转角度(0°、90°、180°和270°)方面的准确程度。该任务要求模型具备强大的视觉推理能力,以检测旋转线索并理解图像内部的空间关系,而不论图像的朝向如何。为了评估MLLMs在这些能力上的表现,我们提出了RotBench——一个包含350张经过人工筛选的图像的基准测试集,涵盖生活方式、人像和风景图像。尽管该任务相对简单,但我们发现多个最先进的开源和专有MLLMs,包括GPT-5、o3和Gemini-2.5-Pro,均无法可靠地识别输入图像的旋转角度。为模型提供辅助信息(如图像描述、深度图等)或使用思维链提示(chain-of-thought prompting)仅带来小幅且不稳定的效果提升。我们的结果表明,大多数模型能够可靠地识别正向(0°)图像,而某些模型可以识别倒置(180°)图像。然而,没有任何模型能够可靠地区分90°和270°的旋转。同时展示同一图像在不同方向的旋转版本,可以为推理模型带来中等程度的性能提升,而通过投票机制改进的设置则有助于提升较弱模型的表现。我们进一步发现,尽管微调可以显著提升模型对180°图像的识别能力,但对90°和270°旋转的区分能力并无改善。综上所述,这些结果揭示了当前MLLMs在空间推理能力与人类感知之间在识别图像旋转方面存在显著差距。