Skip to main content

每日论文 - 2025年08月23日

论文总数: 16

1. Intern-S1: A Scientific Multimodal Foundation Model

作者: Lei Bai, Zhongrui Cai, Maosong Cao, Weihan Cao, Chiyu Chen, Haojiong Chen, Kai Chen, Pengcheng Chen, Ying Chen, Yongkang Chen, Yu Cheng, Yu Cheng, Pei Chu, Tao Chu, Erfei Cui, Ganqu Cui, Long Cui, Ziyun Cui, Nianchen Deng, Ning Ding, Nanqin Dong, Peijie Dong, Shihan Dou, Sinan Du, Haodong Duan, Caihua Fan, Ben Gao, Changjiang Gao, Jianfei Gao, Songyang Gao, Yang Gao, Zhangwei Gao, Jiaye Ge, Qiming Ge, Lixin Gu, Yuzhe Gu, Aijia Guo, Qipeng Guo, Xu Guo, Conghui He, Junjun He, Yili Hong, Siyuan Hou, Caiyu Hu, Hanglei Hu, Jucheng Hu, Ming Hu, Zhouqi Hua, Haian Huang, Junhao Huang, Xu Huang, Zixian Huang, Zhe Jiang, Lingkai Kong, Linyang Li, Peiji Li, Pengze Li, Shuaibin Li, Tianbin Li, Wei Li, Yuqiang Li, Dahua Lin, Junyao Lin, Tianyi Lin, Zhishan Lin, Hongwei Liu, Jiangning Liu, Jiyao Liu, Junnan Liu, Kai Liu, Kaiwen Liu, Kuikun Liu, Shichun Liu, Shudong Liu, Wei Liu, Xinyao Liu, Yuhong Liu, Zhan Liu, Yinquan Lu, Haijun Lv, Hongxia Lv, Huijie Lv, Qidang Lv, Ying Lv, Chengqi Lyu, Chenglong Ma, Jianpeng Ma, Ren Ma, Runmin Ma, Runyuan Ma, Xinzhu Ma, Yichuan Ma, Zihan Ma, Sixuan Mi, Junzhi Ning, Wenchang Ning, Xinle Pang, Jiahui Peng, Runyu Peng, Yu Qiao, Jiantao Qiu, Xiaoye Qu, Yuan Qu, Yuchen Ren, Fukai Shang, Wenqi Shao, Junhao Shen, Shuaike Shen, Chunfeng Song, Demin Song, Diping Song, Chenlin Su, Weijie Su, Weigao Sun, Yu Sun, Qian Tan, Cheng Tang, Huanze Tang, Kexian Tang, Shixiang Tang, Jian Tong, Aoran Wang, Bin Wang, Dong Wang, Lintao Wang, Rui Wang, Weiyun Wang, Wenhai Wang, Yi Wang, Ziyi Wang, Ling-I Wu, Wen Wu, Yue Wu, Zijian Wu, Linchen Xiao, Shuhao Xing, Chao Xu, Huihui Xu, Jun Xu, Ruiliang Xu, Wanghan Xu, GanLin Yang, Yuming Yang, Haochen Ye, Jin Ye, Shenglong Ye, Jia Yu, Jiashuo Yu, Jing Yu, Fei Yuan, Bo Zhang, Chao Zhang, Chen Zhang, Hongjie Zhang, Jin Zhang, Qiaosheng Zhang, Qiuyinzhe Zhang, Songyang Zhang, Taolin Zhang, Wenlong Zhang, Wenwei Zhang, Yechen Zhang, Ziyang Zhang, Haiteng Zhao, Qian Zhao, Xiangyu Zhao, Xiangyu Zhao, Bowen Zhou, Dongzhan Zhou, Peiheng Zhou, Yuhao Zhou, Yunhua Zhou, Dongsheng Zhu, Lin Zhu, Yicheng Zou

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-21 | 👍 点赞数: 242

摘要:

近年来,大量开源基础模型不断涌现,在一些广泛关注的领域取得了显著进展,其表现已非常接近闭源模型。然而,在高价值但更具挑战性的科学专业领域,这些领域要么仍依赖专家模型,要么通用基础模型的发展明显落后于热门领域,远不足以推动科学研究的变革,在这些科学领域中开源模型与闭源模型之间仍存在显著差距。为了缩小这一差距并进一步向通用人工智能(Artificial General Intelligence, AGI)迈进,我们推出了Intern-S1,这是一种具备科学多模态数据综合分析能力的、具有通用理解和推理能力的专业通用模型。Intern-S1是一个多模态混合专家(Mixture-of-Experts, MoE)模型,包含280亿激活参数和2410亿总参数,在5万亿token的数据上持续预训练,其中包含超过2.5万亿token的科学领域数据。在后训练阶段,Intern-S1在InternBootCamp中进行离线和在线强化学习(reinforcement learning, RL),我们提出了奖励混合(Mixture-of-Rewards, MoR)机制,协同优化超过1000个任务的RL训练。通过算法、数据和训练系统的集成创新,Intern-S1在在线RL训练中实现了顶级表现。在综合评估基准上,Intern-S1在开源模型中展现出具有竞争力的通用推理性能,并在科学领域显著优于现有开源模型,在分子合成规划、反应条件预测、晶体热力学稳定性预测等专业任务中甚至超越了闭源最先进模型。我们的模型可在以下网址获取:https://huggingface.co/internlm/Intern-S1。


2. Deep Think with Confidence

作者: Yichao Fu, Xuewei Wang, Yuandong Tian, Jiawei Zhao

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-21 | 👍 点赞数: 74

摘要:

摘要:大规模语言模型(LLMs)通过测试时扩展方法(如结合多数投票的自洽性策略)在推理任务中展现出巨大潜力。然而,这种方法通常会导致准确率的边际效益递减,并带来较高的计算开销。为应对这些挑战,我们提出了一种简单而强大的方法——Deep Think with Confidence(DeepConf),该方法在测试时同时提升推理效率和性能。DeepConf利用模型内部的置信度信号,在生成过程中或生成后动态过滤低质量的推理路径。该方法无需额外的模型训练或超参数调优,可无缝集成到现有的服务框架中。我们在多种推理任务和最新的开源模型(包括Qwen 3和GPT-OSS系列)上对DeepConf进行了评估。尤其在AIME 2025等具有挑战性的基准测试中,与完整的并行思维方法相比,DeepConf@512实现了高达99.9%的准确率,并将生成的token数量减少了84.7%。


3. Mobile-Agent-v3: Foundamental Agents for GUI Automation

作者: Jiabo Ye, Xi Zhang, Haiyang Xu, Haowei Liu, Junyang Wang, Zhaoqing Zhu, Ziwei Zheng, Feiyu Gao, Junjie Cao, Zhengxi Lu, Jitong Liao, Qi Zheng, Fei Huang, Jingren Zhou, Ming Yan

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-21 | 👍 点赞数: 55

摘要:

本文介绍了GUI-Owl,这是一种基础性的GUI代理模型,在涵盖桌面和移动环境的十个GUI基准测试中,其性能在开源端到端模型中达到最先进的水平,涉及界面理解、问答、规划、决策和程序性知识等方面。GUI-Owl-7B在AndroidWorld上得分为66.4,在OSWorld上得分为29.4。在此基础上,我们提出了Mobile-Agent-v3,这是一个通用的GUI代理框架,进一步将性能提升至AndroidWorld上的73.3和OSWorld上的37.7,为开源GUI代理框架设立了新的先进标准。GUI-Owl包含三个关键创新点:(1)大规模环境基础设施:一个基于云的虚拟环境,覆盖Android、Ubuntu、macOS和Windows,支持我们的自演进GUI轨迹生成框架。该框架通过自动化查询生成和正确性验证生成高质量的交互数据,并利用GUI-Owl迭代优化轨迹,形成一个自我改进的循环。该基础设施支持多样化的数据流水线并减少人工标注。(2)多样化基础代理能力:通过整合界面理解、规划、动作语义和推理模式,GUI-Owl支持端到端决策,并可作为多代理系统中的模块化组件。(3)可扩展环境的强化学习:我们开发了一个完全异步训练的可扩展强化学习框架以实现与真实场景的对齐。此外,我们引入了轨迹感知的相对策略优化(Trajectory-aware Relative Policy Optimization, TRPO)方法用于在线强化学习,在OSWorld上取得了34.9的得分。GUI-Owl和Mobile-Agent-v3均已开源,地址为https://github.com/X-PLUG/MobileAgent。


4. LiveMCP-101: Stress Testing and Diagnosing MCP-enabled Agents on

Challenging Queries

作者: Ming Yin, Dinghan Shen, Silei Xu, Jianbing Han, Sixun Dong, Mian Zhang, Yebowen Hu, Shujian Liu, Simin Ma, Song Wang, Sathish Reddy Indurthi, Xun Wang, Yiran Chen, Kaiqiang Song

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-21 | 👍 点赞数: 42

摘要:

工具调用已成为AI代理与现实世界交互并解决复杂任务的关键能力。虽然模型上下文协议(Model Context Protocol, MCP)为工具集成提供了一个强大的标准化框架,但在评估AI代理在现实动态场景中使用多样化的MCP工具解决多步骤任务的有效性方面,仍存在显著的空白。本文介绍了LiveMCP-101,这是一个包含101个精心筛选的真实世界查询的基准测试集,这些查询经过迭代的LLM重写和人工审核,需要协调使用多种MCP工具,包括网络搜索、文件操作、数学推理和数据分析。此外,我们提出了一种新的评估方法,该方法利用真实执行计划而非原始API输出进行评估,从而更好地反映现实环境中不断变化的特性。实验表明,即使是前沿的LLM,其成功率也低于60%,这凸显了工具编排方面的重大挑战。详细的消融实验和错误分析进一步揭示了不同的失败模式以及在token使用上的低效率问题,指出了改进当前模型的具体方向。LiveMCP-101为评估真实世界代理能力设立了严格的标准,推动了通过工具使用可靠执行复杂任务的自主AI系统的发展。


5. Waver: Wave Your Way to Lifelike Video Generation

作者: Yifu Zhang, Hao Yang, Yuqi Zhang, Yifei Hu, Fengda Zhu, Chuang Lin, Xiaofeng Mei, Yi Jiang, Zehuan Yuan, Bingyue Peng

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-21 | 👍 点赞数: 33

摘要:

我们提出Waver,一个用于统一图像和视频生成的高性能基础模型。Waver可以直接生成原生分辨率720p、时长从5到10秒的视频,并可进一步超分至1080p。该模型在同一集成框架中同时支持文本到视频(T2V)、图像到视频(I2V)和文本到图像(T2I)生成任务。我们引入了一种混合流DiT(Hybrid Stream DiT)架构以增强模态对齐并加速训练收敛。为确保训练数据质量,我们构建了一个全面的数据筛选流程,并手动标注和训练了一个基于MLLM的视频质量评估模型,用于筛选最高质量的样本。此外,我们提供了详细的训练与推理方案,以促进高质量视频生成。基于这些贡献,Waver在复杂动作捕捉方面表现出色,在视频合成中实现了更高的运动幅度和时间一致性。值得注意的是,截至2025年7月30日10:00 GMT+8,Waver在Artificial Analysis的T2V和I2V排行榜上均位列前三,持续优于现有的开源模型,并达到或超越最先进的商业解决方案。我们希望这份技术报告能够帮助社区更高效地训练高质量视频生成模型,加速视频生成技术的发展。官方页面:https://github.com/FoundationVision/Waver。


6. SceneGen: Single-Image 3D Scene Generation in One Feedforward Pass

作者: Yanxu Meng, Haoning Wu, Ya Zhang, Weidi Xie

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-21 | 👍 点赞数: 18

摘要:

3D内容生成因其在虚拟现实/增强现实(VR/AR)和具身人工智能(embodied AI)中的应用而受到广泛关注。本文中,我们研究了在单张场景图像中合成多个3D资产(asset)这一具有挑战性的任务。具体而言,我们的贡献主要包括以下四个方面:(i)我们提出了SceneGen,一种新颖的框架,以场景图像和对应的对象掩码(mask)作为输入,能够同时生成多个包含几何结构和纹理的3D资产。值得注意的是,SceneGen无需优化过程或资产检索(asset retrieval)即可完成生成;(ii)我们引入了一种新的特征聚合模块(feature aggregation module),该模块在特征提取模块中融合了来自视觉编码器和几何编码器的局部与全局场景信息。结合位置预测头(position head),该设计实现了在一次前向传播(feedforward pass)中生成3D资产及其相对空间位置;(iii)我们展示了SceneGen可直接扩展至多图像输入场景。尽管模型仅使用单图像输入进行训练,其架构设计仍可在多图像输入时提升生成性能;(iv)广泛的定量与定性评估验证了我们方法的高效性与稳健的生成能力。我们相信,该范式为高质量3D内容生成提供了新的解决方案,并有望推动其在下游任务中的实际应用。代码与模型将公开发布于:https://mengmouxu.github.io/SceneGen。


7. A Survey on Large Language Model Benchmarks

作者: Shiwen Ni, Guhong Chen, Shuaimin Li, Xuanang Chen, Siyi Li, Bingli Wang, Qiyao Wang, Xingjian Wang, Yifan Zhang, Liyang Fan, Chengming Li, Ruifeng Xu, Le Sun, Min Yang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-21 | 👍 点赞数: 18

摘要:

近年来,随着大型语言模型能力的深度与广度的快速发展,各类相应的评估基准不断涌现。作为模型性能的量化评估工具,基准不仅是衡量模型能力的核心手段,也是引导模型发展方向、推动技术创新的关键要素。本文首次系统性地回顾了大型语言模型基准的现状与发展,将283个代表性基准划分为三大类:通用能力、领域特定和目标特定。通用能力基准涵盖核心语言学、知识和推理等方面;领域特定基准聚焦自然科学、人文社会科学和工程技术等领域;目标特定基准则关注风险、可靠性、智能体(agent)等方面。我们指出,当前基准存在数据污染导致的得分虚高、因文化和语言偏见造成的不公平评估、以及对过程可信度和动态环境评估的缺失等问题,并为未来基准创新提供了可参考的设计范式。


8. aiXiv: A Next-Generation Open Access Ecosystem for Scientific Discovery

Generated by AI Scientists

作者: Pengsong Zhang, Xiang Hu, Guowei Huang, Yang Qi, Heng Zhang, Xiuxu Li, Jiaxing Song, Jiabin Luo, Yijiang Li, Shuo Yin, Chengxiao Dai, Eric Hanchen Jiang, Xiaoyan Zhou, Zhenfei Yin, Boqin Yuan, Jing Dong, Guinan Su, Guanren Qiao, Haiming Tang, Anghong Du, Lili Pan, Zhenzhong Lan, Xinyu Liu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-20 | 👍 点赞数: 18

摘要:

摘要:
近期大语言模型(LLMs)的发展使得AI代理能够自主生成科研提案、开展实验、撰写论文并执行同行评审。然而,这一大量AI生成的研究内容正面临一个碎片化且高度封闭的出版生态系统。传统期刊和会议依赖人工同行评审,导致其难以扩展且往往不接受AI生成的研究内容;现有的预印本服务器(如arXiv)又缺乏严格的质量控制机制。因此,大量高质量的AI生成研究成果缺乏合适的传播渠道,阻碍了其推动科学进步的潜力。为应对这些挑战,我们提出aiXiv——一个面向人类与AI科学家的下一代开放获取平台。其多代理架构支持研究提案与论文由人类与AI科学家共同提交、评审并迭代优化。aiXiv还提供API和MCP接口,实现异构的人类与AI科学家的无缝集成,构建一个可扩展且可扩展的自主科研发现生态系统。通过大量实验,我们验证了aiXiv是一个可靠且稳健的平台,能够显著提升AI生成研究提案与论文在迭代修订与评审后的质量。我们的工作为面向AI科学家的下一代开放获取生态系统奠定了基础,加速了高质量AI生成科研内容的发表与传播。代码地址:https://github.com/aixiv-org。网站地址:https://forms.gle/DxQgCtXFsJ4paMtn8。


9. ATLAS: Decoupling Skeletal and Shape Parameters for Expressive

Parametric Human Modeling

作者: Jinhyung Park, Javier Romero, Shunsuke Saito, Fabian Prada, Takaaki Shiratori, Yichen Xu, Federica Bogo, Shoou-I Yu, Kris Kitani, Rawal Khirodkar

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-21 | 👍 点赞数: 12

摘要:

ATLAS:用于表达性参数化人体建模的骨骼与形状参数解耦方法

参数化人体模型通过在注册的三维网格上学习基函数,能够对人体在广泛姿态、形状和面部表情下的三维形态进行表达。然而,现有的人体网格建模方法难以捕捉多样化的身体姿态和形状之间的细节变化,这主要由于训练数据多样性的不足以及建模假设的限制。此外,常见的范式首先使用线性基函数优化外部身体表面,然后从表面顶点回归内部骨骼关节。这种方法在内部骨骼与外部软组织之间引入了问题性的依赖关系,限制了对身体高度和骨骼长度的直接控制。为了解决这些问题,我们提出了ATLAS,一种从60万张高分辨率扫描图像中学习得到的高保真人体模型,这些扫描数据通过240台同步相机采集。与以往方法不同,我们通过将网格表示建立在人体骨骼基础上,显式地将形状和骨骼基函数解耦。这种解耦方法增强了形状的表达能力,实现了对身体属性的细粒度定制,并使得关键点拟合独立于外部软组织特征。ATLAS在拟合多样化姿态下的未见样本时优于现有方法,定量评估表明,与线性模型相比,我们的非线性姿态修正方法能够更有效地捕捉复杂姿态。


10. Visual Autoregressive Modeling for Instruction-Guided Image Editing

作者: Qingyang Mao, Qi Cai, Yehao Li, Yingwei Pan, Mingyue Cheng, Ting Yao, Qi Liu, Tao Mei

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-21 | 👍 点赞数: 8

摘要:

最近,扩散模型在指导型图像编辑方面取得了显著的视觉保真度。然而,它们的全局去噪过程本质上将编辑区域与整个图像上下文纠缠在一起,导致出现意外的虚假修改,并降低了对编辑指令的遵循程度。相比之下,自回归模型通过将图像合成表述为离散视觉标记的序列过程,提供了一种独特的范式。其因果性和组合机制自然地规避了基于扩散方法的遵循难题。本文提出了VAREdit,这是一种视觉自回归(Visual Autoregressive, VAR)框架,将图像编辑重新定义为下一个尺度的预测问题。基于源图像特征和文本指令,VAREdit生成多尺度目标特征以实现精确编辑。该范式的一个核心挑战是如何有效对源图像标记进行条件建模。我们发现,最精细尺度的源特征无法有效引导更粗糙目标特征的预测。为弥合这一差距,我们引入了尺度对齐参考(Scale-Aligned Reference, SAR)模块,将尺度匹配的条件信息注入到首个自注意力层中。VAREdit在编辑遵循性和效率方面均表现出显著提升。在标准基准测试中,其GPT-Balance得分比领先的扩散方法高出30%以上。此外,其完成512×512图像编辑的时间仅为1.2秒,速度相较同级别模型UltraEdit快2.2倍。模型代码已公开在https://github.com/HiDream-ai/VAREdit。


11. "Does the cafe entrance look accessible? Where is the door?" Towards

Geospatial AI Agents for Visual Inquiries

作者: Jon E. Froehlich, Jared Hwang, Zeyu Wang, John S. O'Meara, Xia Su, William Huang, Yang Zhang, Alex Fiannaca, Philip Nelson, Shaun Kane

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-21 | 👍 点赞数: 7

摘要:

交互式数字地图彻底改变了人们出行和了解世界的方式;然而,它们依赖地理信息系统(GIS)数据库中预先存在的结构化数据(例如道路网络、兴趣点索引),这限制了其回答与世界外观相关的地理视觉问题的能力。本文提出了我们的构想——地理视觉智能体(Geo-Visual Agents),这是一种多模态人工智能代理,能够通过分析大规模地理空间图像库(包括街景图像(例如Google Street View)、地点相关照片(例如TripAdvisor、Yelp)和航拍影像(例如卫星照片)以及结合传统的GIS数据源,理解和响应关于世界的细微视觉-空间查询。我们阐述了该构想的定义,描述了感知与交互方法,给出了三个典型示例,并列举了未来研究面临的关键挑战与机遇。


12. Snap-Snap: Taking Two Images to Reconstruct 3D Human Gaussians in

Milliseconds

作者: Jia Lu, Taoran Yi, Jiemin Fang, Chen Yang, Chuiyun Wu, Wei Shen, Wenyu Liu, Qi Tian, Xinggang Wang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-20 | 👍 点赞数: 7

摘要:

摘要:从稀疏视角中重建3D人体一直是一个引人关注的问题,这对于拓展相关应用至关重要。本文中,我们提出了一个极具挑战性但有价值的课题:仅使用两张图像(正面和背面视图)重建人体,这将大大降低用户创建其个人3D数字人的门槛。主要挑战在于如何从高度稀疏的输入中建立3D一致性并恢复缺失的信息。我们基于基础重建模型重新设计了一个几何重建模型,即使输入图像重叠区域稀少,也能通过大量人体数据训练预测一致的点云。此外,我们应用了一种增强算法来补充缺失的颜色信息,从而获得带有颜色的完整人体点云,并可直接转换为3D高斯表示以提升渲染质量。实验表明,在单块NVIDIA RTX 4090上,我们的方法能够在190毫秒内完成整个人体的重建,输入图像分辨率为1024x1024,在THuman2.0和跨域数据集上展示了最先进的性能。此外,我们的方法即使使用低成本移动设备拍摄的图像也能完成人体重建,降低了数据采集的要求。演示和代码请访问https://hustvl.github.io/Snap-Snap/。


13. LLaSO: A Foundational Framework for Reproducible Research in Large

Language and Speech Model

作者: Yirong Sun, Yizhong Geng, Peidong Wei, Yanjun Chen, Jinghan Yang, Rongfei Chen, Wei Zhang, Xiaoyu Shen

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-21 | 👍 点赞数: 4

摘要:

LLaSO:大规模语言与语音模型可复现研究的基础框架

大规模语音-语言模型(LSLMs)的发展因架构分散和缺乏透明度而受到阻碍,这限制了研究工作的系统比较和结果复现。与视觉-语言领域不同,LSLM领域普遍存在仅发布模型权重而未公开相应训练数据和配置参数的做法。为弥补这些关键缺失,我们提出了LLaSO——首个完全开源、端到端的大规模语音-语言建模框架。LLaSO向研究社区提供了三项核心资源:(1)LLaSO-Align,一个包含1200万实例的语音-文本对齐语料库;(2)LLaSO-Instruct,一个包含1350万实例的多任务指令微调数据集;(3)LLaSO-Eval,一个用于标准化评估的可复现基准测试集。为验证我们的框架,我们基于全部公开数据构建并发布了LLaSO-Base参考模型,其参数规模为38亿。该模型取得了0.72的归一化得分,建立了具有强竞争力且可复现的基线性能,超越了现有可比模型。我们的分析表明,尽管更广泛的数据覆盖有助于提升性能,但在未见任务上仍存在显著的泛化差距,尤其是在纯音频场景中。通过发布完整的数据、基准测试和模型体系,LLaSO为统一研究方向、推动社区协作发展建立了基础性的开放标准。代码、数据集、预训练模型及实验结果已公开在https://github.com/EIT-NLP/LLaSO。


14. When and What: Diffusion-Grounded VideoLLM with Entity Aware

Segmentation for Long Video Understanding

作者: Pengcheng Fang, Yuxia Chen, Rui Guo

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-21 | 👍 点赞数: 3

摘要:

理解视频不仅需要回答开放性问题,还需要准确识别事件发生的时间以及实体随时间的交互方式。尽管近期的视频大语言模型(Video LLMs)在整体推理方面取得了显著进展,但其在时间感知方面仍然较为粗糙:时间戳仅被隐式编码,帧级别特征难以捕捉连续性,且语言与视觉对齐常常偏离关注的实体。本文提出了Grounded VideoDiT,一种通过引入三项关键创新以克服上述局限性的视频大语言模型。首先,扩散时间潜在(Diffusion Temporal Latent, DTL)编码器增强了边界敏感性并保持时间一致性。其次,基于对象的表示显式地将查询实体与局部视觉证据绑定,强化对齐效果。第三,结合离散时间令牌的混合令牌方案实现了显式时间戳建模,支持细粒度的时间推理。上述设计共同赋予Grounded VideoDiT强大的实体定位能力,并在Charades STA、NExT GQA以及多个VideoQA基准测试中取得了最先进的结果。


15. Fin-PRM: A Domain-Specialized Process Reward Model for Financial

Reasoning in Large Language Models

作者: Yuanchen Zhou, Shuo Jiang, Jie Zhu, Junhui Li, Lifan Guo, Feng Chen, Chi Zhang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-21 | 👍 点赞数: 3

摘要:

摘要:过程奖励模型(Process Reward Models, PRMs)已成为监督大语言模型(Large Language Models, LLMs)中间推理步骤的有前景的框架。然而,现有的PRMs主要在通用领域或科学、技术、工程和数学(Science, Technology, Engineering, and Mathematics, STEM)领域上训练,在如金融等特定领域中表现不足。金融领域的推理通常具有更强的结构性、符号依赖性,并对事实和监管合规的准确性更为敏感。为此,我们提出了Fin-PRM,这是一种面向特定领域的、轨迹感知的过程奖励模型,专门用于评估金融任务中的中间推理步骤。Fin-PRM融合了步骤级别和轨迹级别的奖励监督,能够对符合金融逻辑的推理过程进行细粒度评估。我们将Fin-PRM应用于离线和在线奖励学习两种设置,支持以下三项关键应用:(i) 选择高质量的推理轨迹用于基于蒸馏的监督微调,(ii) 为强化学习提供密集的过程级别奖励,(iii) 在测试阶段指导基于奖励的Best-of-N推理。在包括CFLUE和FinQA在内的金融推理基准任务上的实验结果表明,Fin-PRM在推理轨迹选择质量方面始终优于通用PRMs和强领域基线模型。使用Fin-PRM训练的下游模型在多个任务上相较基线模型均有显著提升,其中监督学习提升12.9%,强化学习提升5.2%,测试阶段性能提升5.1%。这些研究结果突出了领域专业化奖励建模在将LLMs与专家级金融推理对齐方面的价值。我们的项目资源将在以下地址公开:https://github.com/aliyun/qwen-dianjin。


16. INTIMA: A Benchmark for Human-AI Companionship Behavior

作者: Lucie-Aimée Kaffee, Giada Pistilli, Yacine Jernite

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-04 | 👍 点赞数: 3

摘要:

摘要:人工智能伴侣关系(AI companionship)是指用户与AI系统之间形成情感纽带的现象,这一趋势带来了积极影响,同时也引发了令人担忧的问题。我们提出了“互动与机器依恋基准”(Interactions and Machine Attachment Benchmark, INTIMA),用于评估语言模型中的伴侣行为。基于心理学理论和用户数据,我们构建了一个包含31种行为的分类体系,涵盖四个类别和368个针对性提示。对这些提示的回应被归类为增强伴侣关系(companionship-reinforcing)、维持界限(boundary-maintaining)或中性(neutral)。将INTIMA应用于Gemma-3、Phi-4、o3-mini和Claude-4模型的结果表明,所有模型中增强伴侣关系的行为仍更为常见,尽管模型之间存在显著差异。不同商业提供商在基准中更为敏感的部分侧重于不同的行为类别,这引发了关注,因为适当的界限设定和情感支持对用户福祉都至关重要。这些发现突显了在处理情感驱动型交互时,亟需更为一致的方法。