Skip to main content
目录

每日论文 - 2025年09月12日

论文总数: 25

1. VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action

Model

作者: Yihao Wang, Pengxiang Ding, Lingxiao Li, Can Cui, Zirui Ge, Xinyang Tong, Wenxuan Song, Han Zhao, Wei Zhao, Pengxu Hou, Siteng Huang, Yifan Tang, Wenhui Wang, Ru Zhang, Jianyi Liu, Donglin Wang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-11 | 👍 点赞数: 114

摘要:

VLA-Adapter:一种面向微型视觉-语言-动作模型的有效范式

视觉-语言-动作(Vision-Language-Action, VLA)模型通常通过对机器人数据进行大规模视觉-语言模型(Vision-Language Model, VLM)的预训练,来弥合感知空间与动作空间之间的差距。尽管这种方法显著提升了模型性能,但也带来了高昂的训练成本。本文探讨了如何有效地将视觉-语言(VL)表征与动作(A)进行连接。我们提出了VLA-Adapter,这是一种新颖的范式,旨在降低VLA模型对大规模VLM和广泛预训练的依赖。为此,我们首先系统性地分析了多种VL条件的有效性,并揭示了哪些条件对于连接感知空间与动作空间至关重要。基于这些洞察,我们提出了一种轻量级的策略模块,结合桥接注意力机制(Bridge Attention),能够自主地将最优条件注入到动作空间中。通过这种方式,我们的方法仅使用一个参数量为0.5B的骨干网络,且无需任何机器人数据的预训练,即可实现高性能。在模拟和真实世界机器人基准任务上的大量实验表明,VLA-Adapter不仅达到了当前最先进的性能水平,还实现了迄今最快的推理速度。此外,得益于所提出的先进桥接范式,VLA-Adapter仅需单块消费级GPU即可在8小时内训练出一个强大的VLA模型,从而大幅降低了部署VLA模型的门槛。 项目页面:https://vla-adapter.github.io/


2. HuMo: Human-Centric Video Generation via Collaborative Multi-Modal

Conditioning

作者: Liyang Chen, Tianxiang Ma, Jiawei Liu, Bingchuan Li, Zhuowei Chen, Lijie Liu, Xu He, Gen Li, Qian He, Zhiyong Wu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-10 | 👍 点赞数: 89

摘要:

人体中心视频生成(HCVG)方法旨在从包括文本、图像和音频在内的多模态输入中合成人体视频。现有方法在协调这些异构模态方面存在困难,主要面临两个挑战:配对三元组条件的训练数据稀缺,以及难以协同完成主体保持和音视频同步这两个子任务。为此,我们提出了HuMo,一种用于协同多模态控制的统一HCVG框架。针对第一个挑战,我们构建了一个包含多样化配对文本、参考图像和音频的高质量数据集。针对第二个挑战,我们提出了一种两阶段渐进式多模态训练范式,并结合任务特定策略。在主体保持任务中,为了保持基础模型的提示跟随和视觉生成能力,我们采用了侵入性最小的图像注入策略。在音视频同步任务中,除了常用的音频交叉注意力层,我们还提出了一种“预测聚焦”策略,隐式引导模型将音频与面部区域相关联。在跨多模态输入的可控性联合学习过程中,基于此前获得的能力,我们逐步引入音视频同步任务。在推理阶段,为了实现灵活且细粒度的多模态控制,我们设计了一种时间自适应的无分类器引导(Classifier-Free Guidance)策略,动态调整去噪过程中的引导权重。大量实验结果表明,HuMo在各项子任务上均优于当前最先进的专门方法,建立了一个用于协同多模态驱动的人体中心视频生成统一框架。 项目页面:https://phantom-video.github.io/HuMo


3. SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning

作者: Haozhan Li, Yuxin Zuo, Jiale Yu, Yuhao Zhang, Zhaohui Yang, Kaiyan Zhang, Xuekai Zhu, Yuchen Zhang, Tianxing Chen, Ganqu Cui, Dehui Wang, Dingxiang Luo, Yuchen Fan, Youbang Sun, Jia Zeng, Jiangmiao Pang, Shanghang Zhang, Yu Wang, Yao Mu, Bowen Zhou, Ning Ding

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-11 | 👍 点赞数: 57

摘要:

视觉-语言-动作(Vision-Language-Action, VLA)模型最近成为机器人操作领域的一种强大范式。尽管大规模预训练和监督微调(supervised fine-tuning, SFT)推动了显著进展,但这些模型仍面临两个根本性挑战:(i)SFT扩展所需的大规模人工操作机器人轨迹稀缺且成本高昂;(ii)在涉及分布外任务的场景中泛化能力有限。近期大型推理模型(Large Reasoning Models, LRMs)的突破表明,强化学习(reinforcement learning, RL)可以显著增强逐步推理能力,这引发了一个自然问题:RL是否同样能够提升VLA模型的长视野逐步动作规划能力?本文提出了SimpleVLA-RL,一个专为VLA模型设计的高效RL框架。基于veRL,我们引入了VLA专用的轨迹采样方法、可扩展的并行化策略、多环境渲染技术以及优化后的损失计算方式。将SimpleVLA-RL应用于OpenVLA-OFT模型时,在LIBERO任务上达到了最先进的性能,并通过我们提出的增强探索策略,在RoboTwin 1.0&2.0任务中表现超过了pi_0。SimpleVLA-RL不仅降低了对大规模数据的依赖并实现了强大的泛化能力,而且在实际任务中显著优于监督微调方法。此外,我们在RL训练过程中发现了一个新现象“pushcut”,即策略能够发现此前训练过程中未见过的模式。 Github: https://github.com/PRIME-RL/SimpleVLA-RL


4. EchoX: Towards Mitigating Acoustic-Semantic Gap via Echo Training for

Speech-to-Speech LLMs

作者: Yuhao Zhang, Yuhao Du, Zhanchen Dai, Xiangnan Ma, Kaiqi Kou, Benyou Wang, Haizhou Li

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-11 | 👍 点赞数: 52

摘要:

EchoX:通过回声训练弥合声学-语义差距的语音到语音大语言模型

语音到语音大语言模型(SLLMs)正日益受到关注。由于SLLMs源自基于文本的大语言模型(LLMs),其在知识和推理能力方面常常表现出退化。我们假设这一局限性源于当前SLLMs的训练范式无法弥合特征表示空间中的声学-语义差距。为了解决这一问题,我们提出了EchoX,该方法利用语义表示并动态生成语音训练目标。该方法融合了声学和语义学习,使EchoX作为语音LLM能够保持强大的推理能力。实验结果表明,EchoX在使用约六千小时的训练数据后,在多个基于知识的问答基准测试中表现出先进的性能。 项目代码请访问:https://github.com/FreedomIntelligence/EchoX


5. Kling-Avatar: Grounding Multimodal Instructions for Cascaded

Long-Duration Avatar Animation Synthesis

作者: Yikang Ding, Jiwen Liu, Wenyuan Zhang, Zekun Wang, Wentao Hu, Liyuan Cui, Mingming Lao, Yingchao Shao, Hui Liu, Xiaohan Li, Ming Chen, Xiaoqiang Liu, Yu-Shen Liu, Pengfei Wan

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-11 | 👍 点赞数: 34

摘要:

近期音频驱动的虚拟形象视频生成技术在视听真实感方面取得了显著进展。然而,现有方法仅将指令条件视为由声学或视觉线索驱动的低级跟踪,未能建模指令所传达的交际意图。这一局限性影响了生成结果的叙事连贯性和角色表现力。为弥补这一差距,我们提出了Kling-Avatar,一种新颖的级联框架,将多模态指令理解与照片级真实感肖像生成统一起来。我们的方法采用两阶段流程:第一阶段设计了一个多模态大语言模型(Multimodal Large Language Model, MLLM)导演,根据多样化的指令信号生成蓝图视频,从而控制诸如角色动作和情感等高层语义;第二阶段在蓝图关键帧的引导下,采用首尾帧策略并行生成多个子片段。这种由全局到局部的框架在忠实编码多模态指令背后高层意图的同时保留了精细细节。我们的并行架构还支持长时视频的快速稳定生成,适用于数字人直播和视频博客等实际应用场景。为了全面评估我们的方法,我们构建了一个包含375个精选样本的基准测试集,覆盖多样化的指令和具有挑战性的场景。大量实验表明,Kling-Avatar能够生成最高达1080p分辨率、48帧/秒的生动流畅长时视频,在口型同步精度、情感与动态表现力、指令可控性、身份保持性以及跨域泛化能力方面均表现出卓越性能。这些成果确立了Kling-Avatar作为语义扎根、高保真音频驱动虚拟形象合成的新基准。


6. Harnessing Uncertainty: Entropy-Modulated Policy Gradients for

Long-Horizon LLM Agents

作者: Jiawei Wang, Jiacai Liu, Yuqian Fu, Yingru Li, Xintao Wang, Yuan Lin, Yu Yue, Lin Zhang, Yang Wang, Ke Wang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-11 | 👍 点赞数: 34

摘要:

在长视野任务中,基于大语言模型(Large Language Models, LLMs)的近期智能体面临一个重大挑战:稀疏的、基于结果的奖励使得难以对中间步骤进行信用分配。以往方法主要集中在构建密集的奖励信号以指导学习,这既包括使用逆强化学习等传统强化学习技术,也包括通过过程奖励模型(Process Reward Models)提供逐步反馈。本文中,我们揭示了LLMs学习动力学中的一个基本问题:策略梯度的幅度本质上与熵相关,这导致对置信正确动作的更新幅度较小,而对不确定动作的较大更新可能带来不稳定性。为了解决这一问题,我们提出了熵调制策略梯度(Entropy-Modulated Policy Gradients, EMPG)框架,该框架根据每一步的不确定性与最终任务结果重新校准学习信号。EMPG放大对置信正确动作的更新,惩罚置信错误,并抑制来自不确定步骤的更新以稳定探索过程。我们进一步引入了一个面向未来清晰度的奖励项,以鼓励智能体寻找更具可预测性的解决路径。通过对WebShop、ALFWorld和Deep Search三个具有挑战性的智能体任务进行全面实验,我们证明了EMPG实现了显著的性能提升,并明显优于强基准策略梯度方法。 项目页面:https://empgseed-seed.github.io/


7. FLUX-Reason-6M & PRISM-Bench: A Million-Scale Text-to-Image Reasoning

Dataset and Comprehensive Benchmark

作者: Rongyao Fang, Aldrich Yu, Chengqi Duan, Linjiang Huang, Shuai Bai, Yuxuan Cai, Kun Wang, Si Liu, Xihui Liu, Hongsheng Li

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-11 | 👍 点赞数: 28

摘要:

FLUX-Reason-6M & PRISM-Bench: 百万级文本到图像推理数据集与综合基准

开源文本到图像(T2I)模型的发展受到缺乏大规模、以推理为中心的数据集和综合评估基准的限制,这导致其性能与领先的闭源系统之间存在差距。为应对这一挑战,我们提出了FLUX-Reason-6M和PRISM-Bench(精确且鲁棒的图像生成测量基准)。FLUX-Reason-6M是一个大规模数据集,包含600万张高质量的FLUX生成图像和2000万条双语(英文和中文)描述,专门设计用于教授复杂推理能力。图像按照六个关键特征进行组织:想象力(Imagination)、实体(Entity)、文本渲染(Text rendering)、风格(Style)、情感(Affection)和构图(Composition),并设计了明确的生成思维链(Generation Chain-of-Thought, GCoT)以提供图像生成步骤的详细分解。整个数据构建过程耗时15,000个A100 GPU日,为社区提供了此前仅大型工业实验室才能获得的资源。PRISM-Bench提供了一种新的评估标准,包含七个不同赛道,其中包括基于GCoT的长文本挑战。通过精心设计的提示,它利用先进的视觉-语言模型对提示-图像对齐性和图像美学进行细致的人类对齐评估。我们基于PRISM-Bench对19个领先模型进行了广泛评估,揭示了关键性能差距,并突出了需要改进的具体领域。我们的数据集、基准和评估代码已公开发布,以推动下一波以推理为导向的T2I生成技术发展。 项目页面:https://flux-reason-6m.github.io/


8. Can Understanding and Generation Truly Benefit Together -- or Just

Coexist?

作者: Zhiyuan Yan, Kaiqing Lin, Zongjian Li, Junyan Ye, Hui Han, Zhendong Wang, Hao Liu, Bin Lin, Hao Li, Xue Xu, Xinyan Xiao, Jingdong Wang, Haifeng Wang, Li Yuan

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-11 | 👍 点赞数: 25

摘要:

在本文中,我们通过自编码器(Auto-Encoder)的视角引入了一种富有洞察力的范式——将理解(I2T)视为编码器过程,将图像压缩为文本,而将生成(T2I)视为解码器过程,从该文本重建图像。以重建保真度作为统一的训练目标,我们强制理解与生成过程之间的连贯双向信息流,从而实现两者的相互增益。为实现这一目标,我们提出了UAE,这是一种用于统一多模态学习(UMM)的全新框架。我们首先利用大规模长上下文图像描述对解码器进行预训练,以捕捉细粒度语义和复杂的空间关系。随后,我们通过强化学习(RL)提出Unified-GRPO,其包含三个阶段:(1)冷启动阶段,通过语义重建损失温和地初始化编码器和解码器;(2)生成促进理解阶段,其中编码器被训练以生成能够最大化解码器重建质量的信息性描述,从而增强其视觉理解能力;(3)理解促进生成阶段,其中解码器被进一步优化,以从这些描述中重建图像,迫使其利用每一个细节,提升其长上下文指令遵循能力和生成保真度。在评估方面,我们引入了Unified-Bench,这是首个专门用于评估UMMs统一程度的基准测试。在强化学习过程中,我们观察到多模态学习领域的一个令人惊讶的“顿悟时刻”:随着训练的推进,编码器自主生成更具描述性的描述,而解码器则同时展现出深刻理解这些复杂描述的能力,从而实现了极高保真度的图像重建。


9. MachineLearningLM: Continued Pretraining Language Models on Millions of

Synthetic Tabular Prediction Tasks Scales In-Context ML

作者: Haoyu Dong, Pengkun Zhang, Mingzhe Lu, Yanzhen Shen, Guolin Ke

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-08 | 👍 点赞数: 22

摘要:

大型语言模型(LLMs)具有广泛的世界知识和强大的通用推理能力,但在标准机器学习(ML)任务中,它们难以通过上下文学习(ICL)从大量上下文示例中进行学习,即无法仅通过上下文内的演示而无需梯度下降来利用多样本信息。我们提出了MachineLearningLM,这是一种可移植的持续预训练框架,使通用LLM具备强大的上下文内ML能力,同时保留其在更广泛对话流程中的通用知识和推理能力。

我们的预训练过程从数百万个结构因果模型(SCMs)中合成ML任务,涵盖的样本数量最高可达1,024个。我们从随机森林教师模型开始,将其基于树的决策策略提炼到LLM中,以增强数值建模的鲁棒性。所有任务均使用一种高效的标记提示格式进行序列化,使得每个上下文窗口可容纳3到6倍的示例,并通过批量推理实现高达50倍的摊销吞吐量。

尽管配置相对简单(Qwen-2.5-7B-Instruct配合LoRA秩8),MachineLearningLM在金融、物理、生物和医疗领域的分布外表格分类任务上,平均表现优于强大的LLM基线模型(如GPT-5-mini)约15%。它展现出显著的多样本扩展规律:当上下文内演示样本数从8增加到1,024时,准确率呈现单调上升趋势。在没有任何任务特定训练的情况下,其在数百个样本下即可达到随机森林级别的准确率。此外,其通用对话能力(包括知识和推理)得以保留:在MMLU基准上达到75.4%的准确率。


10. AU-Harness: An Open-Source Toolkit for Holistic Evaluation of Audio LLMs

作者: Sidharth Surapaneni, Hoang Nguyen, Jash Mehta, Aman Tiwari, Oluwanifemi Bamgbose, Akshay Kalkunte, Sai Rajeswar, Sathwik Tejaswi Madhusudhan

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-09 | 👍 点赞数: 18

摘要:

大型音频语言模型(Large Audio Language Models, LALMs)正在快速发展,但由于现有工具包效率低下,对其评估仍然具有挑战性,这限制了公平比较和系统性评估的开展。当前的评估框架存在三个关键问题:处理速度慢,限制了大规模研究的开展;提示方式不一致,影响可重复性;任务覆盖范围窄,遗漏了重要的音频推理能力。我们提出了AU-Harness,一个高效且全面的LALM评估框架。通过优化的批量处理和并行执行,我们的系统相比现有工具包实现了最高达127%的速度提升,使得此前难以实现的大规模评估成为可能。我们提供了标准化的提示协议和灵活的配置选项,以在多种场景下实现模型间的公平比较。此外,我们引入了两个新的评估类别:LLM-Adaptive Diarization(LLM自适应语音说话人分割),用于评估模型对音频时间结构的理解能力;Spoken Language Reasoning(口语语言推理),用于评估复杂音频认知任务中的推理能力。通过对380多个任务的评估,我们揭示了当前LALMs在时间理解与复杂口语推理任务中存在显著差距。我们的研究还发现,现有音频基准测试中指令模态缺乏标准化,这在复杂指令跟随下游任务中可能导致高达9.5个百分点的性能差异。AU-Harness不仅提供了实用的评估工具,还揭示了模型的局限性,推动了LALMs的系统性发展。


11. SpatialVID: A Large-Scale Video Dataset with Spatial Annotations

作者: Jiahao Wang, Yufeng Yuan, Rujie Zheng, Youtian Lin, Jian Gao, Lin-Zhuo Chen, Yajie Bao, Yi Zhang, Chang Zeng, Yanxi Zhou, Xiaoxiao Long, Hao Zhu, Zhaoxiang Zhang, Xun Cao, Yao Yao

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-11 | 👍 点赞数: 16

摘要:

SpatialVID:一个具有空间标注的大规模视频数据集

在空间智能领域,包括空间重建和环境探索方面,已经取得了显著进展。然而,当前模型的可扩展性和真实世界保真度仍严重受限于大规模高质量训练数据的缺乏。尽管已有若干数据集提供了相机姿态信息,但它们通常在规模、多样性和标注丰富性方面存在局限,特别是对于具有真实相机运动的现实世界动态场景。为此,我们构建了SpatialVID数据集,该数据集包含大量真实场景的视频,涵盖多样的场景、相机运动以及密集的3D标注,例如逐帧的相机姿态、深度信息和运动指令。具体而言,我们收集了超过21,000小时的原始视频,并通过一个分层过滤流程处理为270万个片段,总计7,089小时的动态内容。随后的标注流程进一步为这些片段提供了详尽的空间和语义信息,包括相机姿态、深度图、动态掩码、结构化字幕以及序列化的运动指令。对SpatialVID数据统计的分析表明,其丰富性和多样性能够直接促进模型泛化能力和性能的提升,使其成为视频与3D视觉研究领域的重要资源。


12. Visual Programmability: A Guide for Code-as-Thought in Chart

Understanding

作者: Bohao Tang, Yan Ma, Fei Zhang, Jiadi Su, Ethan Chern, Zhulin Hu, Zhixin Wang, Pengfei Liu, Ya Zhang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-11 | 👍 点赞数: 8

摘要:

图表理解对视觉-语言模型(VLMs)的推理能力提出了关键挑战。现有方法存在显著局限:一些方法依赖外部工具,使其脆弱且受限于预定义工具集;另一些方法则通过微调专用模型,通常采用单一的推理策略,例如基于文本的思维链(chain-of-thought, CoT)。文本推理的中间步骤难以验证,这使得利用奖励事实准确性的强化学习信号变得复杂。为解决这一问题,我们提出了一种将代码作为思维(Code-as-Thought, CaT)的方法,以可验证的符号格式表示图表中的视觉信息。我们的核心见解是,该策略必须具备适应性:仅使用固定代码实现的方法在符号表示不适用的复杂图表上表现不佳。这一发现促使我们提出了“视觉可编程性”(Visual Programmability)的概念,即一种可学习的属性,用于判断某个图表-问题对更适合通过代码求解还是直接视觉分析求解。我们在一个自适应框架中实现这一概念,其中VLM学会在CaT路径和直接视觉推理路径之间进行选择。模型的选择策略通过强化学习进行训练,采用一种新颖的双奖励系统。该系统结合了数据准确性奖励,以确保模型基于事实并防止数值幻觉;以及决策奖励,用于指导模型何时使用每种策略,避免其默认使用单一推理模式。实验表明,我们的方法在多种图表理解基准任务中表现出强大且稳健的性能。本研究展示了VLMs不仅可以被教会推理,还可以被教会如何推理,从而为每项任务动态选择最优的推理路径。


13. mmBERT: A Modern Multilingual Encoder with Annealed Language Learning

作者: Marc Marone, Orion Weller, William Fleshman, Eugene Yang, Dawn Lawrie, Benjamin Van Durme

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-08 | 👍 点赞数: 7

摘要:

mmBERT: 一种采用退火语言学习的现代多语言编码器

仅包含编码器的语言模型常用于各种标准的机器学习任务,包括分类和检索。然而,近年来对编码器模型的研究相对较少,尤其是在多语言模型方面。我们提出了mmBERT,这是一种仅包含编码器的语言模型,预训练于超过1800种语言的3T多语言文本数据。为了构建mmBERT,我们引入了若干创新要素,包括反向掩码比例调度机制和逆温度采样比例机制。我们仅在训练的衰减阶段引入了超过1700种低资源语言,结果表明这种方法显著提升了模型性能,并最大化了从相对较少的训练数据中获得的收益。尽管这些低资源语言仅在短暂的衰减阶段被引入,我们的模型在分类任务上的表现仍与OpenAI的o3和Google的Gemini 2.5 Pro等模型相当。总体而言,我们在分类和检索任务上均展示了mmBERT相较于上一代模型的显著优势——无论是在高资源语言还是低资源语言上。


14. Gradient-Attention Guided Dual-Masking Synergetic Framework for Robust

Text-based Person Retrieval

作者: Tianlu Zheng, Yifan Zhang, Xiang An, Ziyong Feng, Kaicheng Yang, Qichuan Ding

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-11 | 👍 点赞数: 6

摘要:

尽管对比语言-图像预训练(Contrastive Language-Image Pre-training, CLIP)在多种视觉任务中表现出色,其在人物表征学习中的应用仍面临两个关键挑战:(i) 缺乏大规模标注的聚焦于人物中心图像的视觉-语言数据,以及 (ii) 全局对比学习的固有局限性,在保持对细粒度匹配至关重要的判别性局部特征方面存在困难,同时易受噪声文本标记的影响。本研究通过在数据构建和模型架构方面的协同改进,推动了CLIP在人物表征学习中的发展。首先,我们开发了一种抗噪声的数据构建流程,利用多模态大语言模型(MLLMs)的上下文学习能力,自动过滤和标注网络来源的图像。由此生成了WebPerson数据集,包含500万高质量的人物中心图像-文本对。其次,我们提出了GA-DMS(Gradient-Attention Guided Dual-Masking Synergetic)框架,通过基于梯度注意力相似度分数的自适应掩码策略,改善了跨模态对齐效果。此外,我们引入了掩码文本标记预测目标,迫使模型预测具有信息量的文本标记,从而增强细粒度语义表征学习。大量实验表明,GA-DMS在多个基准测试中实现了最先进的性能。


15. Spatial Reasoning with Vision-Language Models in Ego-Centric Multi-View

Scenes

作者: Mohsen Gholami, Ahmad Rezaei, Zhou Weimin, Yong Zhang, Mohammad Akbari

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-08 | 👍 点赞数: 5

摘要:

当前视觉-语言模型(VLMs)在理解三维空间关系方面仍存在重大局限。先前的研究通过基于单张图像或室内视频构建空间问答(QA)数据集来解决这一问题。然而,现实世界中具身智能体(如机器人和自动驾驶汽车)通常依赖以自我为中心的多视角观测。为此,我们提出了Ego3D-Bench,这是一个新的基准,旨在利用以自我为中心的多视角户外数据评估VLMs的空间推理能力。Ego3D-Bench包含超过8,600对问答样本,由人类标注者深度参与创建,以确保其质量和多样性。我们对16种最先进的VLMs进行了基准测试,包括GPT-4o、Gemini1.5-Pro、InternVL3和Qwen2.5-VL。结果显示,当前VLMs的表现与人类水平之间存在显著差距,表明现有模型在空间理解方面仍未能达到人类水准。为缩小这一差距,我们提出了Ego3D-VLM,这是一种后训练框架,旨在增强VLMs的三维空间推理能力。Ego3D-VLM基于估计的全局三维坐标生成认知地图,在多选问答任务上实现了平均12%的提升,在绝对距离估计任务上实现了平均56%的提升。Ego3D-VLM具有模块化特性,可与任何现有的VLM集成。Ego3D-Bench与Ego3D-VLM共同为在现实世界多视角环境中实现人类水平的空间理解提供了有价值的工具。


16. 2D Gaussian Splatting with Semantic Alignment for Image Inpainting

作者: Hongyu Li, Chaofeng Chen, Xiaoming Li, Guangming Lu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-02 | 👍 点赞数: 5

摘要:

高斯点绘(Gaussian Splatting, GS)是一种将离散点转换为连续空间表示的新兴技术,在3D场景建模和2D图像超分辨率中已展现出良好的效果。本文探讨了其在图像修复任务中的潜在应用,该任务要求在局部生成连贯像素的同时,实现全局语义一致的恢复。我们提出了首个基于2D高斯点绘的图像修复框架,该框架将不完整的图像编码为2D高斯点绘系数的连续场,并通过可微光栅化过程重建最终图像。GS的连续渲染范式本质上提升了修复结果的像素级一致性。为了提高效率和可扩展性,我们引入了一种分块光栅化策略,以降低内存开销并加速推理过程。为实现全局语义一致性,我们融合了预训练DINO模型的特征。我们发现,DINO的全局特征对小范围缺失区域具有天然的鲁棒性,并可有效适配以引导大遮罩场景下的语义对齐,确保修复内容与周围场景在上下文上保持一致。在标准基准上的大量实验表明,我们的方法在定量指标和感知质量方面均达到了具有竞争力的性能,为将高斯点绘应用于2D图像处理开辟了新的方向。


17. OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and

Embodiment-aware Reasoning

作者: Yuecheng Liu, Dafeng Chi, Shiguang Wu, Zhanguang Zhang, Yuzheng Zhuang, Bowen Yang, He Zhu, Lingfeng Zhang, Pengwei Xie, David Gamaliel Arcos Bravo, Yingxue Zhang, Jianye Hao, Xingyue Quan

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-11 | 👍 点赞数: 3

摘要:

OmniEVA:通过任务自适应的三维感知与具身感知推理实现具身通用规划
近期多模态大语言模型(MLLMs)的发展为具身智能带来了新的机遇,使其能够实现多模态理解、推理与交互以及连续的空间决策。然而,当前基于MLLM的具身系统面临两个关键限制。第一,几何适应性差距:仅基于2D输入训练或通过硬编码方式注入3D几何信息的模型,要么空间信息不足,要么受限于2D泛化能力,导致在不同空间需求任务中的适应性较差。第二,具身约束差距:先前的研究常常忽视真实机器人的物理限制与能力,导致生成的任务计划在理论上有效但在实践中不可行。为解决上述问题,我们提出了OmniEVA——一种具身通用规划系统,其通过两项关键创新实现先进的具身推理与任务规划:(1)任务自适应的三维感知机制,引入门控路由模块,根据上下文需求对3D融合过程进行显式选择性调节,从而实现针对多样化具身任务的情境感知三维感知;(2)具身感知推理框架,将任务目标与具身约束共同纳入推理循环,生成既目标导向又可执行的规划决策。大量实验结果表明,OmniEVA不仅在通用具身推理任务中达到当前最优性能,还在多种下游场景中展现出强大的适应能力。在包括基础任务与复合任务在内的一系列所提出具身基准测试中,其稳健且多功能的规划能力得到了验证。 项目页面:https://omnieva.github.io


18. LoCoBench: A Benchmark for Long-Context Large Language Models in Complex

Software Engineering

作者: Jielin Qiu, Zuxin Liu, Zhiwei Liu, Rithesh Murthy, Jianguo Zhang, Haolin Chen, Shiyu Wang, Ming Zhu, Liangwei Yang, Juntao Tan, Zhepeng Cen, Cheng Qian, Shelby Heinecke, Weiran Yao, Silvio Savarese, Caiming Xiong, Huan Wang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-11 | 👍 点赞数: 2

摘要:

摘要:具有数百万token上下文窗口的长上下文语言模型的出现,为复杂的代码理解和软件开发评估创造了新的机会。我们提出了LoCoBench,这是一个专门为评估长上下文LLMs在现实、复杂的软件开发场景中表现而设计的综合性基准。与现有代码评估基准关注单个函数补全或短上下文任务不同,LoCoBench解决了长上下文能力评估的关键空白,这些能力需要理解整个代码库、跨多个文件进行推理,并在大规模软件系统中保持架构一致性。我们的基准测试提供了8,000个评估场景,涵盖10种编程语言,系统生成,上下文长度从10K到1M token,100倍的变化范围,能够精确评估现实软件开发环境中长上下文性能的下降情况。LoCoBench引入了8个任务类别,涵盖了关键的长上下文能力:架构理解(architectural understanding)、跨文件重构(cross-file refactoring)、多会话开发(multi-session development)、缺陷调查(bug investigation)、功能实现(feature implementation)、代码理解(code comprehension)、集成测试(integration testing)和安全分析(security analysis)。通过一个5阶段的流水线,我们创建了多样化、高质量的场景,对LLMs在前所未有的规模上对复杂代码库的推理能力提出挑战。我们引入了一个涵盖4个维度、17个指标的综合评估框架,其中包括8个新的评估指标,并将其组合成一个LoCoBench评分(LoCoBench Score,LCBS)。我们对最先进的长上下文模型的评估揭示了显著的性能差距,表明复杂软件开发中的长上下文理解仍然是一个亟待解决的重大挑战,需要更多的关注。 LoCoBench的代码库发布在:https://github.com/SalesforceAIResearch/LoCoBench


19. ObjectReact: Learning Object-Relative Control for Visual Navigation

作者: Sourav Garg, Dustin Craggs, Vineeth Bhat, Lachlan Mares, Stefan Podgorski, Madhava Krishna, Feras Dayoub, Ian Reid

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-11 | 👍 点赞数: 2

摘要:

摘要:仅使用单个相机和拓扑地图进行视觉导航,最近成为需要额外传感器和三维地图的方法的一种有吸引力的替代方案。这通常通过从当前观测图像和子目标图像的给定对中估计控制的“图像相对”方法实现。然而,图像级的世界表示存在局限性,因为图像严格依赖于智能体的姿态和具身性。相比之下,作为地图属性的对象,提供了具身性和轨迹不变的世界表示。在这项工作中,我们提出了一种学习“对象相对”控制的新范式,其具有几个理想特性:a)无需严格模仿先前经验即可穿越新路线;b)控制预测问题可以与图像匹配问题解耦;c)在跨具身部署中对训练-测试和建图-执行设置的变化均表现出高度不变性。我们提出了一种以“相对”三维场景图形式的拓扑度量地图表示方法,用于获取更具信息量的对象级全局路径规划代价。我们训练了一个局部控制器“ObjectReact”,其直接以高层“路径对象代价图”表示为条件,消除了对显式RGB输入的需求。我们展示了对象相对控制在传感器高度变化以及多个挑战空间理解能力的导航任务(例如沿地图轨迹反向导航)中相较于图像相对方法的优势。我们进一步表明,仅在模拟环境中训练的策略能够很好地泛化到真实世界室内环境。 代码和补充材料可通过项目页面访问:https://object-react.github.io/


20. Towards Better Dental AI: A Multimodal Benchmark and Instruction Dataset

for Panoramic X-ray Analysis

作者: Jing Hao, Yuxuan Fan, Yanpeng Sun, Kaixin Guo, Lizhuo Lin, Jinrong Yang, Qi Yong H. Ai, Lun M. Wong, Hao Tang, Kuo Feng Hung

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-11 | 👍 点赞数: 2

摘要:

近期大型视觉-语言模型(LVLMs)在通用医疗任务中表现出色。然而,它们在牙科等专业领域的有效性仍有待深入探索。特别是作为口腔放射学中广泛使用的影像模式,全景X光片由于解剖结构密集且病理特征细微,现有的医疗基准测试或指令数据集难以捕捉其解读挑战。为此,我们提出了MMOral,这是首个面向全景X光片解读的大规模多模态指令数据集和基准测试。MMOral包含20,563张标注图像以及涵盖属性提取、报告生成、视觉问答和基于图像的对话等多样化任务类型的130万条指令跟随实例。此外,我们还提出了MMOral-Bench,这是一个涵盖牙科诊断五个关键维度的综合性评估套件。我们在MMOral-Bench上评估了64种LVLMs模型,发现即使表现最佳的模型(即GPT-4o)也仅能达到41.45%的准确率,揭示了当前模型在该领域存在显著局限性。为了推动该领域的发展,我们进一步提出了OralGPT,该模型基于Qwen2.5-VL-7B,并利用我们精心整理的MMOral指令数据集进行监督微调(SFT)。令人瞩目的是,仅进行单轮SFT即可显著提升LVLMs的表现,例如OralGPT的准确率提升了24.73%。MMOral与OralGPT均有望成为智能牙科的重要基础,推动牙科领域开发更具临床影响力的多模态AI系统。 数据集、模型、基准测试和评估套件已公开于https://github.com/isbrycee/OralGPT


21. The Choice of Divergence: A Neglected Key to Mitigating Diversity

Collapse in Reinforcement Learning with Verifiable Reward

作者: Long Li, Jiaran Hao, Jason Klein Liu, Zhijian Zhou, Xiaoyu Tan, Wei Chu, Zhe Wang, Shirui Pan, Chao Qu, Yuan Qi

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-09 | 👍 点赞数: 2

摘要:

论文标题:The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward

英文摘要的中文翻译如下:

在使用可验证奖励强化学习(Reinforcement Learning with Verifiable Reward, RLVR)对大语言模型(Large Language Models, LLMs)进行微调时,存在一个核心悖论:尽管单次尝试准确率(Pass@1)有所提升,但多次尝试性能(Pass@k)却经常下降。这一现象通常伴随着灾难性遗忘,即模型失去了先前获得的能力。虽然已有多种方法被提出,但作为主动解决方案的散度项(divergence term)的选择与功能却出人意料地未受到充分研究。我们认为,标准RLVR目标函数——无论是采用集中策略的反向KL散度(reverse KL-divergence),还是完全省略散度项的目标函数——都缺乏知识保留的关键机制。反向KL散度通过缩小策略分布加速了这种能力的衰退,而缺乏散度项则无法防止模型偏离其多样化的知识库。我们提出了一种根本性的视角转变:将散度项本身作为解决方案。我们的框架——多样性保持混合强化学习(Diversity-Preserving Hybrid RL, DPH-RL)利用覆盖质量(mass-covering)的f散度(如正向KL散度和JS散度)作为复习机制。通过持续参考初始策略,该方法迫使模型保持广泛的解决方案覆盖范围。在数学和SQL生成任务上的大量实验表明,DPH-RL不仅解决了Pass@k性能下降的问题,而且在领域内和领域外任务中均提升了Pass@1和Pass@k。此外,DPH-RL在训练效率方面也更具优势,因为它通过生成函数计算f散度,仅需从初始策略采样,无需在线参考模型。我们的研究突出了一个被忽视但至关重要的改进RLVR的方向,证明了散度度量的合理选择是构建更具通用性和多样性推理模型的有力工具。


22. Cross-Domain Evaluation of Transformer-Based Vulnerability Detection on

Open & Industry Data

作者: Moritz Mock, Thomas Forrer, Barbara Russo

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-11 | 👍 点赞数: 1

摘要:

跨领域评估基于Transformer的漏洞检测在开放与工业数据中的表现

学术研究中提出的用于漏洞检测的深度学习解决方案并不总能为开发者所用,且其在工业环境中的适用性鲜有涉及。将此类技术从学术界转移到工业界存在诸多挑战,包括可信度、遗留系统、有限的数字素养以及学术与工业领域专业知识之间的差距。对于深度学习而言,性能问题以及与现有工作流程的集成是另外的顾虑。本研究首先评估了CodeBERT在工业和开源软件中检测漏洞函数的性能。我们分析了其在跨领域泛化能力,即在开源数据上微调后在工业数据上测试,或反之,并探索了处理类别不平衡的策略。基于这些结果,我们开发了AI-DO(面向开发者操作的漏洞检测自动化集成),这是一个集成于持续集成-持续部署(CI/CD)的推荐系统,利用微调后的CodeBERT在代码审查过程中检测并定位漏洞,且不干扰现有工作流程。最后,我们通过对公司IT专业人员的调查评估了该工具的感知有用性。实验结果表明,基于工业数据训练的模型在同一领域内能够准确检测漏洞,但在开源代码上表现下降;而基于开源数据微调的深度学习模型,结合适当的欠采样技术,能够提升漏洞检测效果。


23. Modality Alignment with Multi-scale Bilateral Attention for Multimodal

Recommendation

作者: Kelin Ren, Chan-Yang Ju, Dong-Ho Lee

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-11 | 👍 点赞数: 1

摘要:

模态对齐与多尺度双向注意力的多模态推荐

多模态推荐系统正日益成为电子商务和内容平台的基础技术,通过联合建模用户历史行为和物品的多模态特征(如视觉和文本),实现个性化服务。然而,大多数现有方法依赖于静态融合策略或基于图的局部交互建模,面临两个关键限制:(1)在建模细粒度跨模态关联方面能力不足,导致融合质量次优;(2)缺乏全局分布层面的一致性,导致表征偏差。为解决这些问题,我们提出了MambaRec,一种新颖的框架,通过注意力引导学习整合局部特征对齐和全局分布正则化。其核心是引入了膨胀细化注意力模块(DREAM),该模块使用通道注意力和空间注意力的多尺度膨胀卷积来对齐视觉和文本模态之间的细粒度语义模式。该模块捕捉了层次化关系和上下文感知的关联,提升了跨模态语义建模能力。此外,我们应用最大均值差异(MMD)和对比损失函数来约束全局模态对齐,增强语义一致性。这种双重正则化减少了模态特异性偏差并提升了鲁棒性。为提高可扩展性,MambaRec采用降维策略以降低高维多模态特征的计算成本。在真实电子商务数据集上的大量实验表明,MambaRec在融合质量、泛化能力和效率方面优于现有方法。 我们的代码已公开在https://github.com/rkl71/MambaRec


24. All You Need Is A Fuzzing Brain: An LLM-Powered System for Automated

Vulnerability Detection and Patching

作者: Ze Sheng, Qingxiao Xu, Jianwei Huang, Matthew Woodcock, Heqing Huang, Alastair F. Donaldson, Guofei Gu, Jeff Huang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-08 | 👍 点赞数: 1

摘要:

我们的团队“All You Need Is A Fuzzing Brain”是DARPA人工智能网络挑战赛(AIxCC)的七支决赛队伍之一,并在最终轮次中位列第四名。在此次竞赛中,我们开发了一套网络推理系统(Cyber Reasoning System, CRS),该系统在真实世界中的开源C语言和Java项目中自主发现了28个安全漏洞——其中包括6个此前未知的零日漏洞——并成功修复了其中的14个。 完整的CRS系统已在https://github.com/o2lab/afc-crs-all-you-need-is-a-fuzzing-brain开源。本文详细描述了我们的CRS技术实现,重点介绍其基于大语言模型(LLM)的组件与策略。在AIxCC的基础上,我们进一步推出了一个公开的排行榜,用于评估最先进的LLM在漏洞检测与修复任务上的性能,该排行榜基于AIxCC数据集构建。排行榜地址为:https://o2lab.github.io/FuzzingBrain-Leaderboard/


25. Reasoning Introduces New Poisoning Attacks Yet Makes Them More

Complicated

作者: Hanna Foerster, Ilia Shumailov, Yiren Zhao, Harsh Chaudhari, Jamie Hayes, Robert Mullins, Yarin Gal

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-06

摘要:

早期针对大语言模型(LLMs)的数据投毒攻击研究表明,后门可以被轻易注入。近期的LLMs引入了逐步推理能力,将攻击面扩展至包含中间思维链(Chain-of-Thought, CoT)及其将问题分解为子问题的内在特性。利用这些新攻击向量实现更为隐蔽的投毒攻击,我们提出了“分解式推理投毒”,其中攻击者仅修改推理路径,保持提示词(prompt)和最终答案无异常,并将触发器拆分为多个单独无害的组成部分。有趣的是,尽管仍有可能注入此类分解式投毒,但可靠地激活它们以改变最终答案(而不仅仅是CoT)却出人意料地困难。这种困难源于模型在其思维过程中即使激活了后门,也常常能够从中恢复。最终看来,这种新兴的后门鲁棒性似乎源自这些先进LLMs的推理能力,以及推理过程与最终答案生成之间的架构分离。