每日论文 - 2025年09月14日
论文总数: 25
1. VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action
Model
作者: Yihao Wang, Pengxiang Ding, Lingxiao Li, Can Cui, Zirui Ge, Xinyang Tong, Wenxuan Song, Han Zhao, Wei Zhao, Pengxu Hou, Siteng Huang, Yifan Tang, Wenhui Wang, Ru Zhang, Jianyi Liu, Donglin Wang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-11 | 👍 点赞数: 189
摘要:
论文标题:VLA-Adapter:一种面向微型视觉-语言-动作模型的有效范式
中文摘要:
视觉-语言-动作(Vision-Language-Action, VLA)模型通常通过在机器人数据上预训练大规模视觉-语言模型(Vision-Language Model, VLM)来弥合 感知空间与动作空间之间的鸿沟。尽管该方法显著提升了性能,但也带来了高昂的训练成本。本文探讨如何有效将视觉-语言(VL)表征与动作(A)空间进行连接。我们提出了VLA-Adapter,这是一种新颖的范式,旨在降低VLA模型对大规模VLM和大量预训练的依赖。为此,我们首先系统性地分析了多种视觉-语言条件的有效性,并揭示了哪些条件对于连接感知与动作空间至关重要。基于这些发现,我们设计了一个带有“桥接注意力”(Bridge Attention)机制的轻量级策略模块,能够自主地将最优条件注入到动作空间中。因此,我们的方法仅使用一个参数量为5亿(0.5B)的骨干网络,且无需任何机器人数据的预训练,即可实现高性能表现。在模拟环境和真实世界机器人基准上的大量实验表明,VLA-Adapter不仅达到了当前最先进的性能水平,而且实现了迄今报道中最快的推理速度。此外,得益于所提出的先进桥接范式,VLA-Adapter能够在单块消费级GPU上仅用8小时即可完成强大VLA模型的训练,极大降低了VLA模型部署的门槛。
项目主页:https://vla-adapter.github.io/。
2. HuMo: Human-Centric Video Generation via Collaborative Multi-Modal
Conditioning
作者: Liyang Chen, Tianxiang Ma, Jiawei Liu, Bingchuan Li, Zhuowei Chen, Lijie Liu, Xu He, Gen Li, Qian He, Zhiyong Wu
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-10 | 👍 点赞数: 120
摘要:
论文标题:HuMo:基于多模态协同控制的人本视频生成
中文摘要:
人本视频生成(Human-Centric Video Generation, HCVG)旨在根据文本、图像和音频等多种模态输入合成包含人物的视频。现有方法在有效协调这些异构模态方面面临两大挑战:一是缺乏具有成对三元组条件(文本、图像、音频)的训练数据;二是难以在多模态输入下协同完成“人物身份保持”与“音视频同步”这两个子任务。针对上述问题,本文提出 HuMo——一种统一的、支持多模态协同控制的人本视频生成框架。为应对第一个挑战,我们构建了一个高质量、多样化且包含配对文本、参考图像和音频的三模态数据集。针对第二个挑战,我们设计了一种两阶段渐进式多模态训练范式,并针对不同任务采用特定策略:在人物身份保持任务中,为了保留基础模型的文本理解与视觉生成能力,我们采用最小侵入式的图像注入策略;在音视频同步任务中,除了常规的音频交叉注意力层外,我们进一步提出“预测聚焦”策略,隐式引导模型将音频信息与面部区域相关联。在联合学习多模态可控性方面,我们在已有能力基础上逐步引入音视频同步任务,实现多任务协同训练。在推理阶段,为了实现灵活且细粒度的多模态控制,我们设计了一种时间自适应的无分类器引导(Classifier-Free Guidance)策略,能够在去噪过程中动态调整各模态的引导权重。大量实验结果表明,HuMo 在各项子任务上均优于现有的专 用最先进方法,建立了一个统一的、支持多模态协同控制的人本视频生成框架。
项目主页:https://phantom-video.github.io/HuMo。
3. SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning
作者: Haozhan Li, Yuxin Zuo, Jiale Yu, Yuhao Zhang, Zhaohui Yang, Kaiyan Zhang, Xuekai Zhu, Yuchen Zhang, Tianxing Chen, Ganqu Cui, Dehui Wang, Dingxiang Luo, Yuchen Fan, Youbang Sun, Jia Zeng, Jiangmiao Pang, Shanghang Zhang, Yu Wang, Yao Mu, Bowen Zhou, Ning Ding
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-11 | 👍 点赞数: 73
摘要:
论文标题:SimpleVLA-RL:通过强化学习扩展视觉-语言-动作模型训练
中文摘要:
视觉-语言-动作(Vision-Language-Action, VLA)模型近年来已成为机器人操作领域的一种强大范式。尽管大规模预训练和监督微调(SFT)已带来显著进展,但这些模型仍面临两个根本性挑战:(i)监督微调所需的大量人类操作机器人轨迹数据稀缺且获取成本高昂;(ii)在面对分布偏移的任务时泛化能力有限。近期大型推理模型(Large Reasoning Models, LRMs)的突破表明,强化学习(Reinforcement Learning, RL)能够显著提升逐步推理能力,这引发了一个自然的问题:RL是否同样可以改善VLA模型在长视野下的逐步动作规划能力?在本研究中,我们提出了SimpleVLA-RL——一种专为VLA模型设计的高效强化学习框架。在veRL的基础上,我们引入了面向VLA的轨迹采样策略、可扩展的并行化机制、多环境渲染技术以及优化后的损失计算方法。将该方法应用于OpenVLA-OFT模型时,SimpleVLA-RL在LIBERO基准上达到了当前最优(SoTA)性能,并在RoboTwin 1.0和2.0上凭借我们提出的增强探索策略表现超越了pi_0策略。SimpleVLA-RL不仅降低了对大规模标注数据的依赖,实现了更强的泛化能力,而且在真实世界任务中的表现显著优于监督微调方法。此外,我们在RL训练过程中发现了一种新颖现象——“pushcut”,即策略能够发现此前训练阶段中从未见过的行为模式。
代码地址:https://github.com/PRIME-RL/SimpleVLA-RL
4. MachineLearningLM: Continued Pretraining Language Models on Millions of
Synthetic Tabular Prediction Tasks Scales In-Context ML
作者: Haoyu Dong, Pengkun Zhang, Mingzhe Lu, Yanzhen Shen, Guolin Ke
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-08 | 👍 点赞数: 60
摘要:
论文标题:MachineLearningLM:在数百万个合成表格预测任务上继续预训练语言模型以实现上下文内机器学习的可扩展性
中文摘要:
大型语言模型(LLMs)具备广泛的世界知识和强大的通用推理能力,但在标准机器学习(ML)任务中,它们难以通过大量上下文示例进行学习,即无法仅依靠上下文学习(ICL)而无需梯度下降来有效利用多示例示范。本文提出 MachineLearningLM,一种可移植的持续预训练框架,旨在赋予通用语言模型强大的上下文内机器学习能力,同时保留其在更广泛对话工作流中的通用知识与推理能力。
我们的预训练方法基于数百万个结构因果模型(SCMs)生成合成的机器学习任务,涵盖从少量到最多1,024个示例的多种样本规模。我们首先采用随机森林作为教师模型,将基于树的决策策略蒸馏至语言模型中,以增强其在数值建模中的鲁棒性。所有任务均采用高效令牌的提示格式进行序列化,使得每个上下文窗口可容纳3至6倍更多的示例,并通过批量推理实现高达50倍的摊销吞吐量提升。
尽管实验设置相对轻量(基于Qwen-2.5-7B-Instruct模型并使用LoRA秩8),MachineLearningLM 在金融、物理、生物和医疗等多个领域的分布外表格分类任务上,平均性能优于强基线语言模型(如 GPT-5-mini)约15%。该模型展现出显著的多示例扩展规律:随着上下文内示例数量从8增加到1,024,准确率呈现单调上升趋势。在未进行任何任务特定训练的情况下,其在数百个示例下即可达到与随机森林相当的准确水平。同时,模型保持了良好的通用对话能力,包括知识掌握与逻辑推理,在MMLU基准上取得了75.4%的准确率。
5. EchoX: Towards Mitigating Acoustic-Semantic Gap via Echo Training for
Speech-to-Speech LLMs
作者: Yuhao Zhang, Yuhao Du, Zhanchen Dai, Xiangnan Ma, Kaiqi Kou, Benyou Wang, Haizhou Li
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-11 | 👍 点赞数: 57
摘要:
论文标题:EchoX:通过回声训练弥合语音到语音大模型中的声学-语义鸿沟
中文摘要:
语音到语音大语言模型(SLLMs)正受到越来越多的关注。由于源自基于文本的大语言模型(LLMs),SLLMs 常常在知识和推理能力方面出现退化。我们假设这一局限性源于当前 SLLMs 的训练范式未能在特征表示空间中有效弥合声学与语义之间的鸿沟。为解决此问题,我们提出了 EchoX,该方法利用语义表征并动态生成语音训练目标。该方案融合了声学与语义学习,使 EchoX 作为语音大模型仍能保持强大的推理能力。实验结果表明,EchoX 在约六千小时的训练数据下,在多个基于知识的问答基准测试上达到了先进水平。
本项目代码已公开于 https://github.com/FreedomIntelligence/EchoX。
6. Kling-Avatar: Grounding Multimodal Instructions for Cascaded
Long-Duration Avatar Animation Synthesis
作者: Yikang Ding, Jiwen Liu, Wenyuan Zhang, Zekun Wang, Wentao Hu, Liyuan Cui, Mingming Lao, Yingchao Shao, Hui Liu, Xiaohan Li, Ming Chen, Xiaoqiang Liu, Yu-Shen Liu, Pengfei Wan
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-11 | 👍 点赞数: 47
摘要:
论文标题:Kling-Avatar:面向级联长时长虚拟形象动画合成的多模态指令具身化方法
中文摘要:
近年来,音频驱动的虚拟形象视频生成技术在视听真实感方面取得了显著进展。然而,现有方法仅将指令条件视为由声学或视觉线索驱动的低层次追踪任务,未能建模指令所传达的交际意图,从而限制了其叙事连贯性与角色表现力。为弥补这一不足,我们提出了Kling-Avatar——一种新颖的级联式框架,统一了多模态指令理解与高保真肖像生成。该方法采用两阶段流程:第一阶段设计了一个多模态大语言模型(MLLM)导演模块,能够根据多样化的指令信号生成“蓝图视频”,从而控制角色动作、情绪等高层语义;第二阶段则基于蓝图关键帧,采用首尾帧策略并行生成多个子片段。这种从全局到局部的架构在保留细粒度细节的同时,忠实编码了多模态指令背后的高层意图。此外,并行化结构支持快速且稳定的长时视频生成,适用于数字人直播、vlog等实际应用场景。为全面评估本方法性能,我们构建了一个包含375个精选样本的基准数据集,覆盖多种指令类型和具有挑战性的场景。大量实验表明,Kling-Avatar能够生成生动流畅、最高达1080p分辨率、48 fps帧率的长时视频,在唇形同步精度、情感与动态表现力、指令可控性、身份保持能力以及跨域泛化等方面均表现出优越性能。上述成果确立了Kling-Avatar作为语义具身化、高保真音频驱动虚拟形象合成的新标杆。
7. Harnessing Uncertainty: Entropy-Modulated Policy Gradients for
Long-Horizon LLM Agents
作者: Jiawei Wang, Jiacai Liu, Yuqian Fu, Yingru Li, Xintao Wang, Yuan Lin, Yu Yue, Lin Zhang, Yang Wang, Ke Wang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-11 | 👍 点赞数: 42
摘要:
论文标题:利用不确定性:基于熵调制的策略梯度方法用于长视野LLM智能体
中文摘要:
在长视野任务中,当前基于大语言模型(Large Language Models, LLMs)的智能体面临一个重大挑战:稀疏的、基于最终结果的奖励信号难以对中间步骤进行有效的信用分配。以往的方法主要集中在构建密集的奖励信号以指导学习过程,这些方法要么采用逆向强化学习等传统强化学习技术,要么利用过程奖励模型(Process Reward Models)提供逐步反馈。本文揭示了LLM学习动态中的一个根本问题:策略梯度的幅度本质上与策略熵相关联,这导致对高置信度的正确动作更新幅度过小,而对不确定性较高的动作则可能产生过大更新,从而影响训练稳定性。为解决这一问题,我们提出了熵调制策略梯度(Entropy-Modulated Policy Gradients, EMPG),该框架根据每一步的不确定性以及最终任务结果重新校准学习信号。EMPG能够增强对高置信度正确动作的更新,惩罚高置信度下的错误行为,并抑制来自不确定步骤的更新以稳定探索过程。此外,我们引入了一个面向未来可解释性的奖励项,鼓励智能体寻找更具可预测性的解决方案路径。在WebShop、ALFWorld和Deep Search三个具有挑战性的智能体任务上进行的大量实验表明,EMPG显著优于强基线策略梯度方法,并取得了明显的性能提升。
项目主页位于 https://empgseed-seed.github.io/
8. FLUX-Reason-6M & PRISM-Bench: A Million-Scale Text-to-Image Reasoning
Dataset and Comprehensive Benchmark
作者: Rongyao Fang, Aldrich Yu, Chengqi Duan, Linjiang Huang, Shuai Bai, Yuxuan Cai, Kun Wang, Si Liu, Xihui Liu, Hongsheng Li
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-11 | 👍 点赞数: 39
摘要:
论文标题:FLUX-Reason-6M 与 PRISM-Bench:百万级文本到图像推理数据集及综合基准
中文摘要:
开源文本到图像(T2I)模型的发展一直受限于缺乏大规模、以推理为核心的数据集以及全面的评估基准,导致其性能落后于领先的闭源系统。为应对这一挑战,我们提出了 FLUX-Reason-6M 和 PRISM-Bench(精确且鲁棒的图像合成测量基准)。FLUX-Reason-6M 是一个大规模数据集,包含由 FLUX 模型生成的 600 万张高质量图像和 2000 万条双语(英文和中文)描述,专为训练复杂推理能力而设计。该数据集依据六大关键特征进行组织:想象力(Imagination)、实体(Entity)、文本渲染(Text rendering)、风格(Style)、情感表达(Affection)和构图(Composition),并设计了明确的生成思维链(Generation Chain-of-Thought, GCoT),对图像生成过程提供详尽的步骤分解。整个数据构建过程耗时 15,000 个 A100 GPU 日,为学术界提供了此前仅大型工业实验室才可获得的宝贵资源。
PRISM-Bench 提出了一种全新的评估标准,包含七个不同的评测赛道,其中包括基于 GCoT 的高难度长文本生成挑战。通过精心设计的提示语,该基准利用先进的视觉-语言模型,实现对提示与图像一致性(prompt-image alignment)以及图像美学质量的细致且符合人类判断的评估。我们在 PRISM-Bench 上对 19 个主流模型进行了广泛评测,揭示了当前模型的关键性能差距,并指出了亟需改进的具体方向。我们已公开发布数据集、评测基准及代码,旨在推动下一阶段面向推理能力的文本到图像生成技术发展。 项目主页:https://flux-reason-6m.github.io/ 。
9. Can Understanding and Generation Truly Benefit Together -- or Just
Coexist?
作者: Zhiyuan Yan, Kaiqing Lin, Zongjian Li, Junyan Ye, Hui Han, Zhendong Wang, Hao Liu, Bin Lin, Hao Li, Xue Xu, Xinyan Xiao, Jingdong Wang, Haifeng Wang, Li Yuan
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-11 | 👍 点赞数: 32
摘要:
论文标题:理解与生成能否真正相互促进——还是仅仅共存?
中文摘要: 本文从自编码器(Auto-Encoder)的视角提出了一种富有洞察力的范式:将视觉理解视为编码器(I2T),将图像压缩为文本描述;将图像生成视为解码器(T2I),从该文本重建图像。通过将重建保真度作为统一的训练目标,我们强制理解与生成过程之间形成连贯的双向信息流,从而实现两者的互利共赢。为实现这一理念,我们提 出了UAE,一种用于统一多模态学习的新框架。首先,我们在大规模长上下文图像描述数据上预训练解码器,以捕捉细粒度语义和复杂的空间关系。随后,我们提出基于强化学习(RL)的Unified-GRPO方法,包含三个阶段:(1)冷启动阶段,通过语义重建损失温和地初始化编码器与解码器;(2)以生成促进理解,训练编码器生成有助于提升解码器重建质量的信息丰富描述,从而增强其视觉理解能力;(3)以理解促进生成,进一步优化解码器对这些描述的重建能力,迫使其充分利用每一个细节,提升其在长上下文指令遵循和生成保真度方面的能力。为评估模型性能,我们推出了Unified-Bench,这是首个专门用于评估统一多模态模型(UMMs)融合程度的基准。在多模态学习领域出现了一个令人惊喜的“顿悟时刻”:随着强化学习的推进,编码器自主生成出更具描述性的文本,而解码器同时展现出深刻理解这些复杂描述的能力,最终实现了极高保真度的图像重建。
10. SpatialVID: A Large-Scale Video Dataset with Spatial Annotations
作者: Jiahao Wang, Yufeng Yuan, Rujie Zheng, Youtian Lin, Jian Gao, Lin-Zhuo Chen, Yajie Bao, Yi Zhang, Chang Zeng, Yanxi Zhou, Xiaoxiao Long, Hao Zhu, Zhaoxiang Zhang, Xun Cao, Yao Yao
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-11 | 👍 点赞数: 28
摘要:
论文标题:SpatialVID:一种具有空间标注的大规模视频数据集
中文摘要:
在空间智能领域,无论是在空间重建还是环境探索方面,均已取得显著进展。然而,当前模型的可扩展性及真实世界中的表现力仍严重受限于大规模、高质量训练数据的匮乏。尽管已有部分数据集提供了相机位姿信息,但它们通常在规模、多样性以及标注丰富性方面存在局限,尤其是在包含真实相机运动的现实世界动态场景中更为明显。为此,我们构建了SpatialVID——一个包含大量野外真实场景视频的数据集,涵盖多样的场景、相机运动,并提供密集的三维标注,例如逐帧的相机位姿、深度图和运动指令。具体而言,我们收集了超过21,000小时的原始视频,通过分层过滤流程处理为270万个视频片段,总计达7,089小时的动态内容。随后的标注流程为这些片段补充了详尽的空间与语义信息,包括相机位姿、深度图、动态掩码、结构化字幕以及序列化的运动指令。对SpatialVID数据统计特性的分析表明,其丰富的信息和高度的多样性能够有效促进模型的泛化能力与性能提升,使其成为视频与三维视觉研究领域的重要资源。
11. AU-Harness: An Open-Source Toolkit for Holistic Evaluation of Audio LLMs
作者: Sidharth Surapaneni, Hoang Nguyen, Jash Mehta, Aman Tiwari, Oluwanifemi Bamgbose, Akshay Kalkunte, Sai Rajeswar, Sathwik Tejaswi Madhusudhan
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-09 | 👍 点赞数: 21
摘要:
论文标题:AU-Harness:一种用于全面评估音频大语言模型的开源工具包
中文摘要:
大型音频语言模型(Large Audio Language Models, LALMs)正在快速发展,但由于现有工具包效率低下,对其进行有效评估仍面临挑战,限制了公平比较和系统性评估。当前的评估框架存在三个关键问题:处理速度慢,制约大规模研究;提示方式不一致,影响可复现性;任务覆盖范围狭窄,遗漏了重要的音频推理能力。为此,我们提出了AU-Harness——一个高效且全面的LALM评估框架。该系统通过优化的批量处理和并行执行机制,相较现有工具包最高速度提升达127%,使得以往难以实现的大规模评估成为可能。我们提供了标准化的提示协议和灵活的配置选项,支持在多种场景下进行公平的模型对比。此外,我们新增了两个评估类别:面向时序音频理解的“大语言模型自适应说话人分离”(LLM-Adaptive Diarization),以及针对复杂音频认知任务的“口语推理”(Spoken Language Reasoning)。通过对380多个任务的评估,我们发现当前LALMs在时序理解与复杂的口语推理任务上仍存在显著不足。研究结果还揭示了现有音频基准测试中指令模态缺乏标准化的问题,在具有挑战性的复杂指令跟随下游任务中,可能导致高达9.5个 绝对百分点的性能差异。AU-Harness不仅提供了实用的评估工具,也揭示了模型的局限性,推动了LALM系统的规范化发展。
12. mmBERT: A Modern Multilingual Encoder with Annealed Language Learning
作者: Marc Marone, Orion Weller, William Fleshman, Eugene Yang, Dawn Lawrie, Benjamin Van Durme
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-08 | 👍 点赞数: 12
摘要:
论文标题:mmBERT:一种具有退火语言学习机制的现代多语言编码器
中文摘要:
仅使用编码器的语言模型常被应用于多种标准机器学习任务,包括分类和检索。然而,近年来针对编码器模型的研究相对匮乏,尤其是在多语言模型方面。本文提出了mmBERT,一种仅含编码器的语言模型,它在超过1800种语言的3万亿(3T)多语言文本标记上进行了预训练。为了构建mmBERT,我们引入了若干新颖的技术,包括逆向掩码比例调度策略(inverse mask ratio schedule)和逆向温度采样比例(inverse temperature sampling ratio)。我们仅在训练的衰减阶段将1700多种低资源语言加入数据混合中,结果表明,这种做法显著提升了模型性能,并最大限度地利用 了相对有限的训练数据。尽管这些低资源语言仅在较短的衰减阶段参与训练,mmBERT在分类任务上的表现仍可媲美OpenAI的o3和Google的Gemini 2.5 Pro等模型。总体而言,我们在分类与检索任务上均验证了mmBERT相较于前一代模型的显著优势——无论是在高资源还是低资源语言上均表现出更优性能。
13. Visual Programmability: A Guide for Code-as-Thought in Chart
Understanding
作者: Bohao Tang, Yan Ma, Fei Zhang, Jiadi Su, Ethan Chern, Zhulin Hu, Zhixin Wang, Pengfei Liu, Ya Zhang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-11 | 👍 点赞数: 10
摘要:
论文标题:视觉可编程性:一种基于“代码即思维”的图表理解指南
中文摘要:
图表理解对视觉-语言模型(Vision-Language Models, VLMs)的推理能力提出了关键挑战。现有方法存在显著局限:一些方法依赖外部工具,导致系统脆弱且受限于预定义的工具集;另一些方法则通过微调专用模型实现,但通常仅采用单一推理策略,例如基于文本的思维链(chain-of-thought, CoT)。而基于文本的推理过程难以验证,这使得难以利用强化学习信号来奖励事实准确性。为解决这一问 题,我们提出“代码即思维”(Code-as-Thought, CaT)方法,将图表中的视觉信息以可验证的符号化形式进行表达。我们的核心洞见在于,该策略必须具备适应性:固定地仅使用代码实现的方法在处理复杂图表时表现不佳,因为在这些情况下符号化表征并不适用。这一发现促使我们提出“视觉可编程性”(Visual Programmability)——一种可学习的特性,用于判断某一图表-问题对更适合通过代码生成还是直接视觉分析来求解。我们在一个自适应框架中实现了这一理念,使VLM能够自主选择采用CaT路径或直接视觉推理路径。该模型的选择策略通过强化学习进行训练,并采用一种新颖的双奖励机制:该机制结合了数据准确率奖励(用于确保模型输出符合事实、防止数值幻觉)和决策奖励(用于指导模型学会何时使用何种推理策略),从而避免模型陷入单一推理模式。实验结果表明,该方法在多种图表理解基准任务上均展现出强大且稳健的性能。本研究证明,视觉-语言模型不仅可以被教会如何推理,还能学会“如何思考”,并针对不同任务动态选择最优的推理路径。
14. Spatial Reasoning with Vision-Language Models in Ego-Centric Multi-View
Scenes
作者: Mohsen Gholami, Ahmad Rezaei, Zhou Weimin, Yong Zhang, Mohammad Akbari
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-08 | 👍 点赞数: 10
摘要:
论文标题:面向自我中心多视角场景的视觉-语言模型空间推理
中文摘要:
当前视觉-语言模型(VLMs)在理解三维空间关系方面仍存在显著局限。以往研究通过构建基于单张图像或室内视频的空间问答(QA)数据集来应对这一问题。然而,在现实世界中,具身人工智能代理(如机器人和自动驾驶汽车)通常依赖于自我中心、多视角的观测方式。为此,我们提出了Ego3D-Bench,这是一个全新的基准,旨在利用自我中心、多视角的户外数据评估VLMs的空间推理能力。Ego3D-Bench包含超过8,600个问答对,由人类标注者深度参与创建,以确保数据的质量与多样性。我们对包括GPT-4o、Gemini1.5-Pro、InternVL3和Qwen2.5-VL在内的16种前沿VLMs进行了系统评测。实验结果表明,现有VLMs的表现与人类水平之间仍存在明显差距,凸显了当前模型在空间理解能力上的不足。为缩小这一差距,我们提出Ego3D-VLM——一种后训练框架,用于增强VLMs的三维空间推理能力。Ego3D-VLM基于估计的全局3D坐标生成认知地图,在多选问答任务上平均提升12%,在绝对距离估计任务上平均提升56%。该框架具有模块化特性,可与任意现有VLM集成。Ego3D-Bench与Ego3D-VLM共同为推动真实世界多视角环境中实现类人水平的空间理解提供了重要工具。
15. Gradient-Attention Guided Dual-Masking Synergetic Framework for Robust
Text-based Person Retrieval
作者: Tianlu Zheng, Yifan Zhang, Xiang An, Ziyong Feng, Kaicheng Yang, Qichuan Ding
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-11 | 👍 点赞数: 7
摘要:
论文标题:用于鲁棒文本-行人检索的梯度注意力引导双掩码协同框架
中文摘要:
尽管对比语言-图像预训练(CLIP)在多种视觉任务中表现出色,但其在行人表征学习中的应用面临两个关键挑战:(i)缺乏大规模、以行人为中心且带有标注的视觉-语言数据;(ii)全局对比学习的固有局限性,难以在保持细粒度匹配所需的关键局部特征的同时,有效抑制噪声文本词元的干扰。本文通过在数据构建和模型架构两方面的协同改进,推动了CLIP在行人表征学习中的发展。首先,我们设计了一种抗噪声的数据构建流程,利用多模态大语言模型(MLLMs)的上下文学习能力,对从网络获取的图像进行自动筛选与文本标注,构建了一个包含500万高质量行人图像-文本对的大规模数据集WebPerson。其次,我们提出了GA-DMS(梯度注意力引导双掩码协同)框架,该框架通过基于梯度注意力相似度分数来自适应地屏蔽噪声文本词元,从而提升跨模态对齐效果。此外,我们引入了掩码词元预测任务,迫使模型预测具有信息量的文本词元,进一步增强细粒度语义表征的学习能 力。大量实验表明,GA-DMS在多个基准上均取得了最先进的性能表现。
16. LoCoBench: A Benchmark for Long-Context Large Language Models in Complex
Software Engineering
作者: Jielin Qiu, Zuxin Liu, Zhiwei Liu, Rithesh Murthy, Jianguo Zhang, Haolin Chen, Shiyu Wang, Ming Zhu, Liangwei Yang, Juntao Tan, Zhepeng Cen, Cheng Qian, Shelby Heinecke, Weiran Yao, Silvio Savarese, Caiming Xiong, Huan Wang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-11 | 👍 点赞数: 6
摘要:
论文标题:LoCoBench:面向复杂软件工程任务的长上下文大语言模型评测基准
中文摘要:
随着上下文窗口扩展至数百万token的长上下文语言模型的出现,代码深度理解与软件开发能力评估迎来了新的机遇。本文提出了LoCoBench,一个专门针对真实、复杂软件开发场景设计的综合性基准,用于评估长上下文大语言模型(LLMs)的能力。不同于现有代码评估基准主要关注单函数补全或短上下文任务,LoCoBench填补了关键的评估空白,聚焦于需要理解完整代码库、跨多个文件进行推理以及在大规模软件系统中保持架构一致性的长上下文能力。本基准 系统生成了涵盖10种编程语言的8,000个评估场景,上下文长度范围从10K到100万token,跨度达100倍,能够在真实的软件开发环境中精确评估模型在长上下文下的性能退化情况。LoCoBench定义了8类任务,涵盖关键的长上下文能力:架构理解、跨文件重构、多会话开发、缺陷排查、功能实现、代码理解、集成测试和安全分析。通过一个五阶段的构建流程,我们生成了多样化且高质量的评估场景,挑战大模型在前所未有的规模上对复杂代码库进行推理的能力。我们提出了一套全面的评估框架,包含4个维度共17项指标,其中8项为新引入的评估指标,并综合形成LoCoBench评分(LCBS)。对当前最先进的长上下文模型的评估结果表明,其在复杂软件开发中的长上下文理解能力仍存在显著差距,说明该问题仍是亟待解决的重大挑战,需引起更多关注。
LoCoBench已公开发布:https://github.com/SalesforceAIResearch/LoCoBench。
17. 2D Gaussian Splatting with Semantic Alignment for Image Inpainting
作者: Hongyu Li, Chaofeng Chen, Xiaoming Li, Guangming Lu
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-02 | 👍 点赞数: 5
摘要:
论文标题:基于语义对齐的二维高斯点阵化图像修复方法
中文摘要:
高斯点阵化(Gaussian Splatting, GS)是一种将离散点转换为连续空间表示的新兴技术,在三维场景建模和二维图像超分辨率任务中已展现出优异性能。本文探索了该技术在图像修复领域的未开发潜力,该任务既需要局部像素级的连贯性合成,也要求全局语义的一致性恢复。我们提出了首个基于二维高斯点阵化的图像修复框架,该框架将不完整图像编码为一组连续的二维高斯点阵系数场,并通过可微光栅化过程重建最终图像。GS的连续渲染范式天然有助于提升修复区域的像素级一致性。为了提高效率与可扩展性,我们引入了一种分块光栅化策略,有效降低了内存开销并加速了推理过程。针对全局语义一致性问题,我们融合了预训练DINO模型提取的特征。我们发现,DINO的全局特征对小范围缺失区域具有天然鲁棒性,并可在大遮罩场景下被有效适配,以指导语义对齐,确保修复内容与周围场景在上下文上保持一致。在多个标准基准上的大量实验表明,我们的方法在定量指标和感知质量方面均取得了具有竞争力的性能,为将高斯点阵化技术应用于二维图像处理开辟了新的研究方向。
18. All You Need Is A Fuzzing Brain: An LLM-Powered System for Automated
Vulnerability Detection and Patching
作者: Ze Sheng, Qingxiao Xu, Jianwei Huang, Matthew Woodcock, Heqing Huang, Alastair F. Donaldson, Guofei Gu, Jeff Huang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-08 | 👍 点赞数: 4
摘要:
论文标题:你只需要一个模糊测试大脑:一种由大语言模型驱动的自动化漏洞检测与修复系统
中文摘要:
我们的团队“你只需要一个模糊测试大脑”(All You Need Is A Fuzzing Brain)是美国国防高级研究计划局(DARPA)人工智能网络挑战赛(AIxCC)的七支决赛队伍之一,并在最终轮中位列第四。在比赛过程中,我们开发了一套网络推理系统(Cyber Reasoning System, CRS),该系统在真实世界的开源C语言和Java项目中自主发现了28个安全漏洞,其中包括6个此前未知的零日漏洞,并成功修复了其中14个。
完整的CRS系统已在以下地址开源:https://github.com/o2lab/afc-crs-all-you-need-is-a-fuzzing-brain。本文详细介绍了该CRS的技术架构,重点阐述了其基于大语言模型(LLM)的核心组件与策略。基于AIxCC的成果,我们进一步推出一个公开的排行榜,用于对最先进的大语言模型在漏洞检测与修复任务上的性能进行基准测试,该排行榜的数据源自AIxCC数据集。
排行榜地址为:https://o2lab.github.io/FuzzingBrain-Leaderboard/。
19. ObjectReact: Learning Object-Relative Control for Visual Navigation
作者: Sourav Garg, Dustin Craggs, Vineeth Bhat, Lachlan Mares, Stefan Podgorski, Madhava Krishna, Feras Dayoub, Ian Reid
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-11 | 👍 点赞数: 3
摘要:
论文标题:ObjectReact:面向视觉导航的物体相对控制学习
中文摘要:
仅使用单目相机和拓扑地图进行视觉导航,近年来成为一种颇具吸引力的替代方案,相较于依赖额外传感器和三维地图的传统方法更具实用性。现有方法通常采用“图像相对”(image-relative)策略,通过当前观测图像与子目标图像的配对来估计控制指令。然而,基于图像的世界表征存在局限性,因为图像严格依赖于智能体的姿态和具身形态。相比之下,物体作为地图本身的属性,能够提供一种与具身形态和运动轨迹无关的世界表示方式。在本研究中,我们提出了一种全新的“物体相对”(object-relative)控制学习范式,具备以下多个理想特性:a)无需完全模仿过往经验即可实现新路径的通行;b)将控制预测问题与图像匹配问题解耦;c)在跨具身形态部署中表现出高度不变性,适用于训练与测试环境、建图与执行场景之间的各种变化。我们提出一种以“相对”3D场景图为形式的拓扑度量(topometric)地图表示方法,用于生成更具信息量的物体层级全局路径规划代价。在此基础上,我们训练了一个局部控制器,命名为“ObjectReact”,其直接以高层级的“途经物体代价图”(WayObject Costmap)为条件输入,从而无需显式的RGB图像输入。我们在多种传感器高度变化及多项挑战空间理解能力的导航任务(例如沿相反方向 traversing 地图路径)中,验证了物体相对控制相较于图像相对方法的优势。进一步实验表明,仅在仿真环境中训练的策略能够良好地泛化至真实室内场景。
代码与补充材料可通过项目主页获取:https://object-react.github.io/
20. OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and
Embodiment-aware Reasoning
作者: Yuecheng Liu, Dafeng Chi, Shiguang Wu, Zhanguang Zhang, Yuzheng Zhuang, Bowen Yang, He Zhu, Lingfeng Zhang, Pengwei Xie, David Gamaliel Arcos Bravo, Yingxue Zhang, Jianye Hao, Xingyue Quan
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-11 | 👍 点赞数: 3
摘要:
论文标题:OmniEVA:基于任务自适应的三维定位与具身感知推理的通用具身规划器
中文摘要:
多模态大语言模型(MLLM)的最新进展为具身智能带来了新的机遇,实现了多模态理解、推理与交互能力,以及持续的空间决策。然而,当前基于MLLM的具身系统仍面临两大关键挑战。第一,几何适应性鸿沟:仅在二维输入上训练或依赖硬编码方式注入三维几何信息的模型,往往存在空间信息不足或二维泛化能力受限的问题,导致在具有多样化空间需求的任务之间适应性较差。第二,具身约束鸿沟:现有研究通常忽视真实机器人所面临的物理限制和执行能力,导致生成的任务计划虽在理论上成立,但在实际中不可行。
为解决上述问题,我们提出OmniEVA——一种具备高度通用性的具身规划器,通过两项关键技术实现先进的具身推理与任务规划能力:(1)任务自适应的三维定位机制,引入门控路由模块,根据上下文需求显式地选择性调节三维信息融合过程,从而实现面向多样化具身任务的情境感知三维定位;(2)具身感知推理框架,将任务目标与具身约束共同纳入推理循环,生成既以目标为导向又具备可执行性的规划决策。
大量实验结果表明,OmniEVA不仅在通用具身推理任务上达到了最先进的性能,还在多种下游场景中展现出强大的泛化能力。在一系列涵盖基础动作任务与复合任务的具身基准测试上的评估,验证了其鲁棒且多功能的规划能力。 项目主页:https://omnieva.github.io
21. Towards Better Dental AI: A Multimodal Benchmark and Instruction Dataset
for Panoramic X-ray Analysis
作者: Jing Hao, Yuxuan Fan, Yanpeng Sun, Kaixin Guo, Lizhuo Lin, Jinrong Yang, Qi Yong H. Ai, Lun M. Wong, Hao Tang, Kuo Feng Hung
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-11 | 👍 点赞数: 3
摘要:
论文标题:迈向更优的牙科人工智能:一种用于全景X光分析的多模态基准与指令数据集
中文摘要:
近年来,大型视觉-语言模型(LVLMs)在通用医学任务中展现出优异的性能。然而,其在牙科等专业领域的有效性仍缺乏深入探索。特别是全景X光片——口腔放射学中广泛使用的一种影像模态——由于解剖结构密集且病理特征细微,现有医学基准和指令数据集难以充分捕捉其解读所需的复杂性。为此,我们提出了MMOral,这是首个面向全景X光解读的大规模多模态指令数据集与基准。MMOral包含20,563张标注图像,配以130万条涵盖多种任务类型的指令跟随样本,包括属性提取、报告生成、视觉问答以及图像 grounding 对话。此外,我们构建了MMOral-Bench,一个覆盖牙科五大关键诊断维度的综合性评估套件。我们在MMOral-Bench上评估了64种LVLMs,发现即使表现最优的模型(即GPT-4o)也仅达到41.45%的准确率,暴露出当前模型在该领 域中的显著局限性。为推动该领域的发展,我们进一步提出OralGPT,基于Qwen2.5-VL-7B模型,利用精心构建的MMOral指令数据集进行监督微调(SFT)。令人瞩目的是,仅一轮微调即显著提升了LVLM的性能,例如OralGPT实现了24.73%的提升。MMOral与OralGPT有望成为智能牙科的重要基石,推动牙科领域更具临床影响力的多模态AI系统的发展。本研究的数据集、模型、基准及评估套件均已公开,
获取地址:https://github.com/isbrycee/OralGPT。
22. The Choice of Divergence: A Neglected Key to Mitigating Diversity
Collapse in Reinforcement Learning with Verifiable Reward
作者: Long Li, Jiaran Hao, Jason Klein Liu, Zhijian Zhou, Xiaoyu Tan, Wei Chu, Zhe Wang, Shirui Pan, Chao Qu, Yuan Qi
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-09 | 👍 点赞数: 3
摘要:
论文标题:发散项的选择:缓解可验证奖励强化学习中多样性坍塌的一个被忽视的关键
中文摘要:
在使用可验证奖励的强化学习(RLVR)对大语言模型(LLMs)进行微调时,存在一个核心悖论:尽管单次尝试 准确率(Pass@1)有所提升,但多次尝试下的性能(Pass@k)却常常下降。这一现象通常伴随着灾难性遗忘,即模型丢失了先前掌握的能力。尽管已有多种方法被提出,但作为主动解决方案的“发散项”(divergence term)的选择及其作用机制却意外地未受到充分研究。我们认为,标准的RLVR目标函数——无论是采用聚焦于众数的反向KL散度(reverse KL-divergence),还是完全省略发散项的方法——都缺乏一种关键的知识保留机制。反向KL会通过收缩策略分布而加速知识退化,而完全省略发散项则无法防止模型偏离其原有的多样化知识基础。本文提出一种根本性的视角转变:将发散项本身作为解决该问题的核心手段。我们提出的框架——多样性保持型混合强化学习(DPH-RL)——利用覆盖质量广泛的f-散度(如前向KL和JS散度),将其作为一种“排练机制”(rehearsal mechanism)。通过持续参考初始策略,该方法迫使模型维持广泛的解覆盖能力。在数学推理与SQL生成任务上的大量实验表明,DPH-RL不仅能有效解决Pass@k性能下降的问题,还能在领域内和领域外同时提升Pass@1与Pass@k的表现。此外,DPH-RL具有更高的训练效率,因为它通过生成器函数计算f-散度,仅需从初始策略中采样,无需在线参考模型。本研究揭示了一个至关重要却被长期忽视的优化方向,证明了合理选择发散度量是构建更具通用性和多样性的推理模型的有力工具。
23. Cross-Domain Evaluation of Transformer-Based Vulnerability Detection on
Open & Industry Data
作者: Moritz Mock, Thomas Forrer, Barbara Russo
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-11 | 👍 点赞数: 2
摘要:
论文标题:基于开放与工业数据的Transformer漏洞检测跨领域评估
中文摘要:
学术界提出的用于漏洞检测的深度学习解决方案并不总是对开发者开放,且其在工业环境中的适用性也鲜有研究。将此类技术从学术界转移到产业界面临着诸多挑战,包括可信度、遗留系统、数字素养有限,以及学术与工业领域专业知识之间的差距。对于深度学习而言,性能表现及其与现有工作流程的集成是额外需要考虑的问题。在本研究中,我们首先评估了CodeBERT在工业软件和开源软件中检测漏洞函数的性能。我们分析了该模型在开源数据上微调后在工业数据上测试,以及反之情况下的跨领域泛化能力,并探讨了处理类别不平衡问题的策略。基于这些结果,我们开发了AI-DO(面向开发者操作的自动化漏洞检测集成系统),这是一个集成于持续集成与持续部署(CI/CD)流程的推荐系统,利用微调后的CodeBERT在代码审查过程中检测并定位漏洞,且不干扰现有工作流程。最后,我们通过对公司IT专业人员的问卷调查,评估了该工具的感知有用性。我们的结果显示,在工业数据上训练的模型在相同领域内能准确检测漏洞,但在开源代码上性能下降;而使用适当的欠采样技术在开源数据上微调的 深度学习模型,则能提升漏洞检测的效果。
24. Modality Alignment with Multi-scale Bilateral Attention for Multimodal
Recommendation
作者: Kelin Ren, Chan-Yang Ju, Dong-Ho Lee
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-11 | 👍 点赞数: 2
摘要:
论文标题:基于多尺度双向注意力的模态对齐方法在多模态推荐中的应用
中文摘要:
多模态推荐系统正逐渐成为电子商务和内容平台的基础技术,通过联合建模用户历史行为与物品的多模态特征(如视觉和文本),实现个性化服务。然而,现有大多数方法依赖于静态融合策略或基于图的局部交互建模,存在两个关键局限性:(1)对细粒度跨模态关联的建模能力不足,导致融合质量欠佳;(2)缺乏全局分布层面的一致性约束,容易引发表征偏差。为解决上述问题,本文提出MambaRec——一种新颖的框架,通过注意力引导学习,融合局部特征对齐与全局分布正则化机制。核心组件是膨胀细化注意力模块(Dilated Refinement Attention Module, DREAM),该模块采用带通道注意力和空间注意力的多尺度空洞卷积,实现视觉与文本模态间细粒度语义模式的对齐。该模块能够捕捉层次化关系及上下文感知的关联,提升跨模态语义建模能力。此外,我们引入最大均值差异(Maximum Mean Discrepancy, MMD)和对比损失函数,对全局模态对齐进行约束,增强语义一致性。这种双重正则化机制有效减少了模态特异性偏差,提升了模型鲁棒性。为提高可扩展性,MambaRec还采用降维策略,降低高维多模态特征带来的计算开销。在真实电商数据集上的大量实验表明,MambaRec在融合质量、泛化能力和效率方面均优于现有方法。
我们的代码已公开发布于 https://github.com/rkl71/MambaRec。
25. Reasoning Introduces New Poisoning Attacks Yet Makes Them More
Complicated
作者: Hanna Foerster, Ilia Shumailov, Yiren Zhao, Harsh Chaudhari, Jamie Hayes, Robert Mullins, Yarin Gal
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-06 | 👍 点赞数: 1
摘要:
论文标题:推理引入了新的投毒攻击,但也使其变得更加复杂
中文摘要:
早期针对大语言模型(Large Language Models, LLMs)的数据投毒攻击研究表明,后门可以轻易地被植入。而近期的LLMs引入了逐步推理能力,这扩大了攻击面,使得中间的思维链(Chain-of-Thought, CoT)及其将问题分解为子问题的固有特性也成为潜在的攻击向量。利用这些新途径实现更隐蔽的投毒,我们提出了“分解式推理投毒”(decomposed reasoning poison)——攻击者仅修改推理路径,保持输入提示和最终答案不受污染,并将触发器拆分到多个单独看来无害的组件中。
有趣的是,尽管这类分解式投毒仍可成功注入,但要可靠地激活它们以改变最终输出(而非仅仅影响思维链)却出人意料地困难。这种困难源于模型在思维过程中即使触发了后门,也往往能够从中恢复。最终结果表明,这种新兴的后门鲁棒性源自先进LLMs自身的推理能力,以及推理过程与最终答案生成之间的架构分离。