跳到主要内容

每日论文 - 2025年09月16日

论文总数: 20

1. OmniWorld: A Multi-Domain and Multi-Modal Dataset for 4D World Modeling

作者: Yang Zhou, Yifan Wang, Jianjun Zhou, Wenzheng Chang, Haoyu Guo, Zizun Li, Kaijing Ma, Xinyue Li, Yating Wang, Haoyi Zhu, Mingyu Liu, Dingning Liu, Jiange Yang, Zhoujie Fu, Junyi Chen, Chunhua Shen, Jiangmiao Pang, Kaipeng Zhang, Tong He

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-15 | 👍 点赞数: 97

摘要:

论文标题:OmniWorld:一种面向4D世界建模的多领域多模态数据集

中文摘要:
近年来,4D世界建模领域——旨在联合捕捉空间几何与时间动态——在大规模生成模型和多模态学习技术的推动下取得了显著进展。然而,真正通用的4D世界模型的发展仍受到高质量数据可用性的根本制约。现有的数据集和基准通常缺乏支持4D几何重建、未来状态预测以及相机控制视频生成等关键任务所需的动态复杂性、跨领域多样性以及时空标注信息。为填补这一空白,我们提出了OmniWorld,一个大规模、多领域、多模态的数据集,专为4D世界建模而设计。OmniWorld包含新采集的OmniWorld-Game数据集以及多个经过精心筛选的公共数据集,覆盖广泛的应用领域。相较于现有的合成数据集,OmniWorld-Game提供了更丰富的模态覆盖、更大的规模以及更逼真的动态交互。基于该数据集,我们构建了一个具有挑战性的基准测试,揭示了当前最先进(SOTA)方法在建模复杂4D环境方面的局限性。此外,在OmniWorld上对现有SOTA方法进行微调,可在4D重建和视频生成任务中带来显著的性能提升,充分验证了OmniWorld作为训练与评估资源的有效性。我们期望OmniWorld能够成为推动通用4D世界模型发展的催化剂,从而促进机器对物理世界的整体理解。


2. UI-S1: Advancing GUI Automation via Semi-online Reinforcement Learning

作者: Zhengxi Lu, Jiabo Ye, Fei Tang, Yongliang Shen, Haiyang Xu, Ziwei Zheng, Weiming Lu, Ming Yan, Fei Huang, Jun Xiao, Yueting Zhuang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-15 | 👍 点赞数: 43

摘要:

论文标题:UI-S1:通过半在线强化学习推进GUI自动化

中文摘要:
图形用户界面(Graphical User Interface, GUI)智能体已通过强化学习在自动化复杂界面交互方面展现出显著进展。然而,现有方法面临一个根本性困境:离线强化学习(offline RL)能够基于预先收集的轨迹实现稳定的训练,但在多步任务执行中表现不佳,因其缺乏轨迹级别的奖励信号;而在线强化学习(online RL)虽可通过与环境交互获取此类信号,却受限于奖励稀疏性和高昂的部署成本。为解决这一问题,我们提出半在线强化学习(Semi-online Reinforcement Learning),一种在离线轨迹上模拟在线RL的新范式。在每一次 rollout 过程中,我们在多轮对话中保留原始模型输出,同时引入一个补丁模块(Patch Module),自适应地恢复rollout轨迹与专家轨迹之间的偏差。为了捕捉长期训练信号,半在线RL在奖励计算中引入了折扣未来回报,并结合加权的步骤级和回合级优势函数来优化策略。我们进一步提出半在线性能(Semi-Online Performance, SOP)指标,该指标更贴近真实的在线性能,可作为实际应用中评估效果的有效代理。实验结果表明,我们的半在线RL方法在四个动态基准测试中,在7B规模模型中实现了最先进的性能,相较于基线模型有显著提升(例如,在AndroidWorld上提升+12.0%,在AITW上提升+23.8%),显著缩小了离线训练效率与在线多轮推理能力之间的差距。代码地址:https://github.com/X-PLUG/MobileAgent/tree/main/UI-S1。


3. InternScenes: A Large-scale Simulatable Indoor Scene Dataset with

Realistic Layouts

作者: Weipeng Zhong, Peizhou Cao, Yichen Jin, Li Luo, Wenzhe Cai, Jingli Lin, Hanqing Wang, Zhaoyang Lyu, Tai Wang, Bo Dai, Xudong Xu, Jiangmiao Pang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-13 | 👍 点赞数: 30

摘要:

论文标题:InternScenes:一种具有真实布局的大规模可仿真室内场景数据集

中文摘要:
具身人工智能(Embodied AI)的发展在很大程度上依赖于具备场景多样性与真实布局的大规模可仿真3D场景数据集。然而,现有数据集通常存在数据规模或多样性不足、布局过于规整、缺乏小型物体以及严重的物体碰撞等问题。为解决这些局限,我们提出了InternScenes——一种新颖的大规模可仿真室内场景数据集,通过整合三种不同的场景来源(真实世界扫描、程序化生成场景和设计师构建场景),共包含约40,000个多样化场景,涵盖15种常见场景类型和288类物体,总计包含196万个3D物体。我们特别保留了大量小型物体,使得场景布局更加真实且复杂,平均每区域包含41.5个物体。我们设计了一套完整的数据处理流程,通过对真实扫描数据构建“实到仿”副本以确保可仿真性,引入可交互物体以增强场景交互能力,并通过物理仿真消除物体间的碰撞。我们通过两个基准任务验证了InternScenes的价值:场景布局生成和基于目标点的导航。实验结果表明,该数据集带来的复杂而真实的布局带来了新的挑战。更重要的是,InternScenes为这两项任务的模型规模化训练铺平了道路,使得在如此复杂的环境中进行生成与导航成为可能。我们承诺将公开共享数据、模型及基准测试,以促进整个领域的研究与发展。


4. LongEmotion: Measuring Emotional Intelligence of Large Language Models

in Long-Context Interaction

作者: Weichu Liu, Jing Xiong, Yuxuan Hu, Zixuan Li, Minghuan Tan, Ningning Mao, Chenyang Zhao, Zhongwei Wan, Chaofan Tao, Wendong Xu, Hui Shen, Chengming Li, Lingpeng Kong, Ngai Wong

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-09 | 👍 点赞数: 25

摘要:

论文标题:LongEmotion:在长上下文交互中衡量大语言模型的情感智能

中文摘要:
大语言模型(LLMs)在情感智能(Emotional Intelligence, EI)和长上下文理解方面取得了显著进展。然而,现有的评测基准往往忽略了长上下文场景中的某些情感智能维度,尤其是在交互过程较长、多样化且常伴有噪声的真实实际环境中。为了推动向此类真实场景的评估发展,我们提出了LongEmotion——一个专为长上下文情感智能任务设计的基准。该基准涵盖多种任务类型,包括情感分类、情感检测、情感问答、情感对话、情感摘要以及情感表达。这些任务的平均输入长度达到8,777个token,其中情感表达任务还需生成长文本内容。为了在现实约束条件下提升模型表现,我们引入了检索增强生成(Retrieval-Augmented Generation, RAG)和协同情感建模(Collaborative Emotional Modeling, CoEM)方法,并将其与标准的提示式方法进行比较。与传统方法不同,我们的RAG方法同时利用对话上下文和大语言模型自身作为检索来源,避免对外部知识库的依赖。CoEM方法则通过将任务分解为五个阶段,结合检索增强与有限的知识注入,进一步提升了性能。实验结果表明,RAG与CoEM在大多数长上下文任务中均能持续提升与情感智能相关的表现,推动大语言模型更贴近实际应用场景。此外,我们还对GPT系列模型进行了对比案例研究实验,以展示不同模型在情感智能方面的差异。代码已发布在GitHub上,地址为 https://github.com/LongEmotion/LongEmotion,项目主页位于 https://longemotion.github.io/。


5. Lost in Embeddings: Information Loss in Vision-Language Models

作者: Wenyan Li, Raphael Tang, Chengzu Li, Caiqi Zhang, Ivan Vulić, Anders Søgaard

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-15 | 👍 点赞数: 18

摘要:

论文标题:迷失于嵌入之中:视觉-语言模型中的信息损失

中文摘要:
视觉-语言模型(VLMs)通常通过预训练的视觉编码器处理视觉输入,随后利用连接组件(connector)将视觉表征投影到语言模型的嵌入空间中。尽管这一投影步骤对模态融合至关重要,但其可能引起的信息损失及其对模型能力的直接影响仍缺乏充分研究。本文提出两种互补的方法,通过分析潜在表征空间来检验并量化此类信息损失。首先,我们通过比较图像表征在投影前后的k近邻关系变化,评估语义信息的保留程度;其次,我们通过从投影后的表征重建原始视觉嵌入,在图像块(image patch)级别上直接测量信息损失。实验结果表明,连接组件显著扭曲了视觉表征的局部几何结构,投影后k近邻的差异达到40%–60%,且该失真与检索性能的下降密切相关。基于图像块级别的嵌入重建方法为模型在视觉 grounding 的问答任务中的行为提供了可解释的洞察:信息损失较大的区域能够可靠地预测模型表现困难的案例。


6. LazyDrag: Enabling Stable Drag-Based Editing on Multi-Modal Diffusion

Transformers via Explicit Correspondence

作者: Zixin Yin, Xili Dai, Duomin Wang, Xianfang Zeng, Lionel M. Ni, Gang Yu, Heung-Yeung Shum

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-15 | 👍 点赞数: 17

摘要:

论文标题:LazyDrag:通过显式对应关系实现基于拖拽的多模态扩散Transformer稳定编辑

中文摘要:
基于注意力机制的隐式点匹配依赖已成为拖拽式图像编辑的核心瓶颈,导致必须在较弱的重构强度与昂贵的测试时优化(TTO)之间做出权衡。这一限制严重制约了扩散模型的生成能力,阻碍了高保真度的图像修复(inpainting)以及文本引导的内容创作。本文提出了LazyDrag——首个面向多模态扩散Transformer的拖拽式图像编辑方法,该方法彻底摆脱了对隐式点匹配的依赖。具体而言,我们的方法根据用户的拖拽输入生成一张显式的对应关系图(explicit correspondence map),作为可靠参考来增强注意力控制。这一可靠的参考使得实现稳定且全强度的图像重构过程成为可能,这也是拖拽编辑任务中的首次尝试。它消除了对测试时优化的需求,充分释放了模型的生成潜力。因此,LazyDrag自然地统一了精确的几何控制与文本引导,实现了以往难以完成的复杂编辑操作:例如张开狗的嘴并修复其内部结构、生成“网球”等新物体,或在模糊拖拽的情况下进行上下文感知的修改(如将手移入口袋)。此外,LazyDrag支持多轮编辑流程,并可同时执行移动与缩放操作。在DragBench基准上的评估结果显示,本方法在拖拽准确性和感知质量方面均优于现有基线方法,并通过VIEScore和人工评价得到验证。LazyDrag不仅达到了新的最先进水平,也为图像编辑范式开辟了新的路径。


7. SearchInstruct: Enhancing Domain Adaptation via Retrieval-Based

Instruction Dataset Creation

作者: Iman Barati, Mostafa Amiri, Heshaam Faili

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-12 | 👍 点赞数: 15

摘要:

论文标题:SearchInstruct:通过基于检索的指令数据集构建实现领域自适应增强

中文摘要:
监督微调(Supervised Fine-Tuning, SFT)在训练大语言模型(LLMs)中至关重要,能显著提升模型在指令遵循和上下文学习等方面的关键能力。然而,由于特定领域的约束性和数据稀缺性,构建适用于具体领域的高质量训练数据集仍面临巨大挑战。本文提出SearchInstruct,一种专门用于构建高质量SFT指令数据集的创新方法。该方法首先从少量由人工生成的领域特定问题出发,利用大语言模型对其进行系统性扩展;随后,动态检索与领域相关的资源,为每个扩展后的问题生成准确且符合上下文的答案。实验结果表明,SearchInstruct能够有效提升SFT数据集的多样性和质量,从而显著改善大语言模型在专业领域内的性能表现。此外,我们还证明,所提出的方法不仅可用于数据集构建,还能有效支持模型编辑等任务,实现对现有模型的高效更新。为了促进研究的可复现性与社区应用,我们公开了完整的实现细节、全部生成的指令-响应对以及源代码,托管于公共Git仓库:https://github.com/mostafaamiri/SearchInstruct


8. Learning to Optimize Multi-Objective Alignment Through Dynamic Reward

Weighting

作者: Yining Lu, Zilong Wang, Shiyang Li, Xin Liu, Changlong Yu, Qingyu Yin, Zhan Shi, Zixuan Zhang, Meng Jiang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-14 | 👍 点赞数: 12

摘要:

论文标题:通过动态奖励加权学习优化多目标对齐

中文摘要:
在多目标强化学习中,以往的研究通常采用固定权重的线性奖励标量化方法,理论上已证明该方法无法捕捉非凸的帕累托前沿,因而导致次优结果。这一局限性在大语言模型的在线偏好对齐中尤为突出:由参数化策略生成的随机轨迹,使得从参数到目标之间的映射高度非线性且非凸,任何单一的静态加权方案均难以找到最优的权衡解。为解决这一问题,我们提出了动态奖励加权方法,能够在在线强化学习过程中自适应地调整奖励权重。与依赖固定权重插值的现有方法不同,我们的动态加权机制在训练过程中持续平衡并优先处理各个目标,从而有效探索目标空间中的帕累托前沿。我们提出了两种逐步复杂化且更具通用性的方法:(1)基于超体积引导的权重自适应;(2)基于梯度的权重优化,构成了一套适用于在线多目标对齐的灵活工具集。大量实验表明,所提方法可兼容常用的在线强化学习算法(包括GRPO、REINFORCE和RLOO),在多个数学推理数据集上表现出优异性能,并适用于不同模型族,相较于固定权重的线性标量化基线方法,能在更少的训练步数内 consistently 获得帕累托占优的解。


9. Locality in Image Diffusion Models Emerges from Data Statistics

作者: Artem Lukoianov, Chenyang Yuan, Justin Solomon, Vincent Sitzmann

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-11 | 👍 点赞数: 12

摘要:

论文标题:图像扩散模型中的局部性源于数据统计特性

中文摘要:
在各类生成模型中,扩散模型因其训练目标存在闭式最优解(通常称为最优去噪器)而显得尤为独特。然而,使用该最优去噪器进行扩散仅能复现训练集中的图像,因而无法捕捉深度扩散模型的实际行为。近期研究试图解释最优去噪器与深度扩散模型之间的差距,提出了一些无需训练的解析模型,能够生成与训练后的UNet网络相似的图像。其中性能最佳的方法假设,卷积神经网络的平移等变性和局部性归纳偏置是造成这一性能差异的原因,因此在其解析模型中引入了这些假设。在本研究中,我们提供证据表明,深度扩散模型中的局部性实际上是图像数据集的一种统计特性,而非源于卷积神经网络的归纳偏置。具体而言,我们证明了一个最优的参数化线性去噪器展现出与深度神经去噪器类似的局部性特征。进一步地,我们在理论和实验上均表明,这种局部性直接来源于自然图像数据集中存在的像素相关性。最后,基于这些发现,我们构建了一种新的解析去噪器,其预测的得分函数比先前专家设计的方法更接近深度扩散模型的实际输出。


10. Nav-R1: Reasoning and Navigation in Embodied Scenes

作者: Qingxiang Liu, Ting Huang, Zeyu Zhang, Hao Tang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-13 | 👍 点赞数: 6

摘要:

论文标题:Nav-R1:具身场景中的推理与导航

中文摘要:
具身导航要求智能体在复杂的三维环境中整合感知、推理与行动,以实现鲁棒的交互。现有方法常面临推理过程不连贯、不稳定的问题,导致难以在多样化环境中泛化;同时,在长视野语义推理与低延迟控制之间难以平衡,制约了实时导航的性能。为应对这些挑战,我们提出了Nav-R1——一种统一具身环境中推理能力的具身基础模型。首先,我们构建了Nav-CoT-110K,这是一个大规模的具身任务逐步思维链(Chain-of-Thought, CoT)数据集,用于实现结构化推理的冷启动初始化。在此基础上,我们设计了一种基于GRPO(Group Relative Policy Optimization)的强化学习框架,引入格式奖励、理解奖励和导航奖励三种互补性奖励机制,以提升模型对推理结构的遵循能力、语义 grounding 能力以及路径执行的准确性。此外,我们提出“慢中求快”(Fast-in-Slow)的推理范式,将深思熟虑的语义推理与低延迟的反应式控制解耦,从而实现高效且连贯的导航。在多个具身人工智能基准上的大量实验表明,Nav-R1持续优于强基线方法,在推理与导航性能上平均提升超过8%。在移动机器人上的真实世界部署进一步验证了其在有限机载资源下的鲁棒性。代码地址:https://github.com/AIGeeksGroup/Nav-R1。项目网站:https://aigeeksgroup.github.io/Nav-R1。


11. Measuring Epistemic Humility in Multimodal Large Language Models

作者: Bingkui Tong, Jiaer Xia, Sifeng Shang, Kaiyang Zhou

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-11 | 👍 点赞数: 6

摘要:

论文标题:多模态大语言模型中认知谦逊性的度量

中文摘要:
多模态大语言模型(MLLMs)中的幻觉问题——即模型生成与输入图像不一致的内容——在现实应用中带来了重大风险,从视觉问答中的错误信息传播,到决策过程中的安全隐患,均可能造成严重后果。现有的评测基准主要关注识别准确性,即评估模型能否在干扰选项中选出正确答案。然而,这一做法忽略了一个对可信人工智能同样关键的能力:识别出所有提供的选项都不正确的情况,这种行为体现了“认知谦逊”(epistemic humility)。为此,我们提出了HumbleBench,一个全新的幻觉评测基准,旨在评估MLLMs在三种典型幻觉类型(对象、关系和属性)下拒绝看似合理但实际错误答案的能力。该基准构建于全景场景图数据集之上,利用细粒度的场景图标注提取真实实体与关系,并通过GPT-4-Turbo生成多项选择题,再经过严格的 manual filtering(人工筛选)流程确保质量。每个问题均包含“以上皆非”(None of the above)选项,要求模型不仅要识别正确的视觉信息,还需判断何时所有给定选项均无效。我们在HumbleBench上评估了多种当前最先进的MLLMs,包括通用模型和专为推理设计的模型,并向社区分享了有价值的发现与洞见。通过明确引入对错误选项的拒绝机制,HumbleBench填补了现有评测体系中的关键空白,为安全关键场景下MLLM的可靠性提供了更贴近实际的衡量标准。我们的代码与数据集已公开发布,可通过 https://github.com/maifoundations/HumbleBench 获取。


12. Look Again, Think Slowly: Enhancing Visual Reflection in Vision-Language

Models

作者: Pu Jian, Junhong Wu, Wei Sun, Chen Wang, Shuo Ren, Jiajun Zhang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-15 | 👍 点赞数: 5

摘要:

论文标题:再看一次,慢速思考:增强视觉-语言模型中的视觉反思能力

中文摘要:
近年来,纯文本领域的“慢速思考”推理取得了显著进展,促使研究者尝试将这一能力迁移至视觉-语言模型(VLMs),以训练具备视觉推理能力的模型(VRMs)。然而,此类迁移面临关键挑战:VRMs 中有效的“慢速思考”依赖于视觉反思能力,即基于视觉信息对推理过程进行检查和修正的能力。通过定量分析,我们发现当前的 VRMs 视觉反思能力有限,其在生成较长响应时对视觉信息的注意力迅速衰减。为应对这一挑战,我们提出了一种新的视觉推理模型 Reflection-V,该模型通过推理数据构建实现冷启动学习,并结合强化学习(RL)中的奖励机制设计,从而增强视觉反思能力。首先,我们构建了以视觉为中心的推理数据集,利用一个在视觉-语言模型与推理型大语言模型之间交互的代理(agent)来生成数据,实现视觉反思模式的冷启动学习。其次,在强化学习过程中引入基于视觉注意力的奖励模型,以鼓励模型更多地依据视觉信息进行推理。实验结果表明,Reflection-V 在多个视觉推理基准测试中均实现了显著性能提升。此外,在视觉推理过程中,Reflection-V 对视觉信息的依赖更强且更加稳定,表明其视觉反思能力得到了有效增强。


13. PersonaX: Multimodal Datasets with LLM-Inferred Behavior Traits

作者: Loka Li, Wong Yu Kang, Minghao Fu, Guangyi Chen, Zhenhao Chen, Gongxu Luo, Yuewen Sun, Salman Khan, Peter Spirtes, Kun Zhang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-14 | 👍 点赞数: 4

摘要:

论文标题:PersonaX:基于大语言模型推断行为特征的多模态数据集

中文摘要:
理解人类行为特征对于人机交互、计算社会科学以及个性化人工智能系统等应用至关重要。此类研究通常需要融合多种模态信息,以捕捉细微的行为模式与关联关系。然而,现有资源很少提供将行为描述与其他互补模态(如面部属性和传记信息)相结合的数据集。为填补这一空白,我们提出了PersonaX——一个精心整理的多模态数据集集合,旨在支持跨模态公共特质的综合分析。PersonaX包含两个部分:(1)CelebPersona,涵盖来自不同职业领域的9,444位公众人物;(2)AthlePersona,覆盖7个主要职业体育联盟中的4,181名职业运动员。每个数据集均包含由三个高性能大语言模型推断得出的行为特质评估结果,以及相应的面部图像和结构化传记特征。我们从两个互补层面分析PersonaX:首先,从文本描述中提取高层级特质评分,并采用五种统计独立性检验方法,考察这些特质与其他模态之间的关系;其次,我们提出一种新颖的因果表征学习(Causal Representation Learning, CRL)框架,专门针对多模态、多测量数据设计,并提供理论上的可识别性保证。在合成数据与真实世界数据上的实验验证了所提方法的有效性。通过整合结构化与非结构化分析方法,PersonaX为结合视觉与传记属性研究大语言模型推断的行为特质奠定了基础,推动了多模态特质分析与因果推理的发展。


14. CognitiveSky: Scalable Sentiment and Narrative Analysis for

Decentralized Social Media

作者: Gaurab Chhetri, Anandi Dutta, Subasish Das

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-14 | 👍 点赞数: 3

摘要:

论文标题:CognitiveSky:面向去中心化社交媒体的可扩展情感与叙事分析

中文摘要:
去中心化社交媒体平台的兴起为公共话语的实时分析带来了新的机遇与挑战。本研究提出了CognitiveSky——一个开源且可扩展的分析框架,专为Bluesky(一种去中心化的Twitter或X.com替代平台)上的情感、情绪和叙事分析而设计。CognitiveSky通过Bluesky的应用程序编程接口(API)获取数据,利用基于Transformer的模型对大规模用户生成内容进行标注,并生成结构化、可分析的输出结果。这些摘要信息驱动一个动态仪表盘,可视化呈现情绪变化、用户活动及话题讨论的演化模式。该系统完全构建于免费层级的基础设施之上,实现了低运营成本与高可访问性的统一。尽管本文以心理健康相关讨论的监测为例进行演示,但其模块化设计使其可广泛应用于虚假信息检测、危机响应以及公民舆情分析等多个领域。通过连接大语言模型与去中心化网络,CognitiveSky为数字生态系统不断演变时代的计算社会科学提供了一个透明且可扩展的分析工具。


15. FuseCodec: Semantic-Contextual Fusion and Supervision for Neural Codecs

作者: Md Mubtasim Ahasan, Rafat Hasan Khan, Tasnim Mohiuddin, Aman Chadha, Tariq Iqbal, M Ashraful Amin, Amin Ahsan Ali, Md Mofijul Islam, A K M Mahbubur Rahman

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-14 | 👍 点赞数: 3

摘要:

论文标题:FuseCodec:面向神经语音编解码器的语义-上下文融合与监督

中文摘要:
语音离散化(tokenization)能够实现语音的离散表示,并促进语音语言建模的发展。然而,现有的神经语音编解码器主要捕捉低层次的声学特征,忽略了人类语音中固有的语义和上下文信息。尽管近期研究尝试引入来自自监督语音模型的语义表示,或融合预训练语言模型的上下文表示,但在对齐和统一语义与上下文表征方面仍存在挑战。本文提出 FuseCodec,通过强跨模态对齐和全局信息引导的监督机制,统一声学、语义和上下文表示。我们提出了三种互补的技术:(i)隐空间表示融合(Latent Representation Fusion),将语义和上下文特征直接融入编码器的隐空间,以实现鲁棒且统一的表示学习;(ii)全局语义-上下文监督(Global Semantic-Contextual Supervision),利用全局池化并广播的表示对离散语音 token 进行监督,增强时间一致性与跨模态对齐;(iii)时序对齐的上下文监督(Temporally Aligned Contextual Supervision),通过在局部窗口内动态匹配上下文表示与语音 token,实现细粒度的 token 级监督,进一步强化对齐效果。此外,我们提出了 FuseCodec-TTS,验证了该方法在零样本语音合成任务中的适用性。实验结果表明,FuseCodec 在 LibriSpeech 数据集上取得了当前最优的性能,显著优于 EnCodec、SpeechTokenizer 和 DAC,在转录准确率、感知质量、可懂度和说话人相似性等方面均表现优异。实验结果凸显了语义和上下文引导的离散化方法在语音 token 化及下游任务中的有效性。代码和预训练模型已公开于 https://github.com/mubtasimahasan/FuseCodec。


16. ToolRM: Outcome Reward Models for Tool-Calling Large Language Models

作者: Mayank Agarwal, Ibrahim Abdelaziz, Kinjal Basu, Merve Unuvar, Luis A. Lastras, Yara Rizk, Pavan Kapanipathi

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-15 | 👍 点赞数: 1

摘要:

论文标题:ToolRM:面向工具调用大语言模型的结果型奖励模型

中文摘要:
随着大语言模型(LLMs)越来越多地与外部工具进行交互,针对工具使用的奖励建模已成为一个关键但尚未充分探索的领域。现有的奖励模型主要基于自然语言输出进行训练,在评估基于工具的推理和执行过程时表现不佳。为了量化这一差距,我们提出了FC-RewardBench,这是首个专门设计用于系统评估奖励模型在工具调用场景下性能的基准测试。我们的分析表明,当前的奖励模型常常忽略有效工具使用的关键信号,凸显了构建领域专用建模方法的必要性。为此,我们提出一种基于结果的奖励模型训练框架,利用来自允许宽松许可的开源权重大语言模型合成的数据进行训练。我们训练了参数规模从17亿到140亿不等的多个模型,并在七个跨领域基准任务上对其进行评估。实验结果显示,这些模型持续优于通用基线方法,在下游任务性能上平均提升高达25%,并通过奖励引导的数据过滤机制实现了数据高效的微调。


17. Dr.V: A Hierarchical Perception-Temporal-Cognition Framework to Diagnose

Video Hallucination by Fine-grained Spatial-Temporal Grounding

作者: Meng Luo, Shengqiong Wu, Liqiang Jing, Tianjie Ju, Li Zheng, Jinxiang Lai, Tianlong Wu, Xinya Du, Jian Li, Siyuan Yan, Jiebo Luo, William Yang Wang, Hao Fei, Mong-Li Lee, Wynne Hsu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-15 | 👍 点赞数: 1

摘要:

论文标题:Dr.V:一种基于细粒度时空定位的分层感知-时序-认知框架以诊断视频幻觉

中文摘要:
近年来,大型视频模型(LVMs)在视频理解方面取得了显著进展。然而,这些模型仍普遍存在幻觉问题,会生成与输入视频内容相矛盾的信息。为解决这一问题,我们提出了Dr.V——一种涵盖感知、时序和认知三个层次的分层框架,通过细粒度的时空定位来诊断视频幻觉。Dr.V包含两个核心组件:基准数据集Dr.V-Bench和卫星视频代理Dr.V-Agent。Dr.V-Bench包含从4,974个视频中采集的10,000个实例,覆盖多种多样化任务,每个样本均配有详细的时空标注。Dr.V-Agent通过在感知和时序层面系统性地应用细粒度时空定位,并结合认知层面的推理,实现对LVM中幻觉的检测。这一逐步推进的处理流程模拟了人类对视频的理解方式,能够有效识别幻觉现象。大量实验表明,Dr.V-Agent在幻觉诊断方面表现优异,同时提升了结果的可解释性与可靠性,为实际应用场景中的鲁棒视频理解提供了可行的技术蓝图。所有数据与代码均已公开,获取地址:https://github.com/Eurekaleo/Dr.V。


18. EthicsMH: A Pilot Benchmark for Ethical Reasoning in Mental Health AI

作者: Sai Kartheek Reddy Kasu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-15 | 👍 点赞数: 1

摘要:

论文标题:EthicsMH:面向心理健康人工智能伦理推理的初步基准

中文摘要:
大型语言模型(LLMs)在心理健康及其他敏感领域的应用,引发了关于伦理推理、公平性以及负责任对齐的紧迫问题。然而,现有的道德与临床决策评估基准未能充分捕捉心理健康实践中所特有的伦理困境——在此类情境中,保密性、自主性、行善原则与偏见等问题经常交织并存。为填补这一空白,我们提出了“心理健康中的伦理推理”(EthicsMH),这是一个包含125个情景的初步数据集,旨在评估AI系统在心理治疗和精神科背景下应对具有伦理挑战性情境的能力。每个情景均包含结构化字段,如多个决策选项、符合专家共识的推理过程、预期的模型行为、现实世界影响以及多利益相关方视角。该结构不仅支持对决策准确性的评估,还能衡量解释质量及与专业规范的对齐程度。尽管数据集规模有限且依赖模型辅助生成,EthicsMH建立了一个连接人工智能伦理与心理健康决策的任务框架。通过公开此数据集,我们希望提供一个可扩展的基础资源,未来可通过学术社区与领域专家的持续贡献加以完善,从而推动能够负责任地处理社会中最敏感决策之一的AI系统的发展。


19. ClaimIQ at CheckThat! 2025: Comparing Prompted and Fine-Tuned Language

Models for Verifying Numerical Claims

作者: Anirban Saha Anik, Md Fahimul Kabir Chowdhury, Andrew Wyckoff, Sagnik Ray Choudhury

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-15 | 👍 点赞数: 1

摘要:

论文标题:ClaimIQ在CheckThat! 2025中的表现:用于验证数值型声明的提示式与微调语言模型对比研究

中文摘要:
本文介绍了我们为CLEF 2025 CheckThat! 实验室任务3所设计的系统,该任务聚焦于利用检索到的证据来验证数值型和时间性声明。我们探讨了两种互补的方法:基于指令调优的大语言模型(LLMs)进行零样本提示(zero-shot prompting),以及使用参数高效型LoRA(Low-Rank Adaptation)进行监督式微调。为了提升证据质量,我们研究了多种证据选择策略,包括输入完整文档以及使用BM25和MiniLM进行Top-k句子筛选。我们性能最佳的模型——基于LoRA微调的LLaMA,在英文验证集上表现出色。然而,该模型在测试集上的性能显著下降,暴露出模型泛化能力方面的挑战。这些发现凸显了证据粒度选择与模型适应性在实现鲁棒的数值事实验证中的重要性。


20. GAPrune: Gradient-Alignment Pruning for Domain-Aware Embeddings

作者: Yixuan Tang, Yi Yang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-13 | 👍 点赞数: 1

摘要:

论文标题:GAPrune:面向领域感知嵌入的梯度对齐剪枝方法

中文摘要:
针对需要特定语义理解能力的应用场景(如代码智能体和金融信息检索系统),领域专用嵌入模型已展现出良好前景,通常比通用模型带来更高的性能提升。然而,当前最先进的嵌入模型通常基于大语言模型(LLMs),参数量高达数十亿,导致在资源受限环境下的部署面临挑战。通过剪枝实现模型压缩是一种有前景的解决方案,但现有的剪枝方法对所有参数一视同仁,未能区分通用语义表征与领域特异性模式,从而导致次优的剪枝决策。为此,我们提出GAPrune——一种兼顾领域重要性与通用语言基础保持的剪枝框架。该方法利用Fisher信息衡量参数的重要性,并通过通用域梯度对齐程度来评估参数的行为特性,进而结合两者提出“领域对齐重要性”(Domain Alignment Importance, DAI)评分机制。较低的DAI分数表明该参数对领域任务不重要,或会在领域目标与通用目标之间产生冲突。在FinMTEB和ChemTEB两个领域基准上的实验表明,在50%稀疏度的一次性剪枝设置下,GAPrune所保留的模型性能与密集模型相比仅下降2.5%,且显著优于所有基线方法。进一步经过仅100步的微调后,GAPrune在FinMTEB上取得+4.51%的性能提升,在ChemTEB上提升+1.73%,证明该剪枝策略不仅能保持甚至增强了模型的领域适应能力。我们的研究结果表明,基于原则性设计的剪枝策略可同时实现模型压缩与领域专精能力增强,为相关研究提供了一种新的技术路径。