跳到主要内容

每日论文 - 2025年08月24日

论文总数: 16

1. Intern-S1: A Scientific Multimodal Foundation Model

作者: Lei Bai, Zhongrui Cai, Maosong Cao, Weihan Cao, Chiyu Chen, Haojiong Chen, Kai Chen, Pengcheng Chen, Ying Chen, Yongkang Chen, Yu Cheng, Yu Cheng, Pei Chu, Tao Chu, Erfei Cui, Ganqu Cui, Long Cui, Ziyun Cui, Nianchen Deng, Ning Ding, Nanqin Dong, Peijie Dong, Shihan Dou, Sinan Du, Haodong Duan, Caihua Fan, Ben Gao, Changjiang Gao, Jianfei Gao, Songyang Gao, Yang Gao, Zhangwei Gao, Jiaye Ge, Qiming Ge, Lixin Gu, Yuzhe Gu, Aijia Guo, Qipeng Guo, Xu Guo, Conghui He, Junjun He, Yili Hong, Siyuan Hou, Caiyu Hu, Hanglei Hu, Jucheng Hu, Ming Hu, Zhouqi Hua, Haian Huang, Junhao Huang, Xu Huang, Zixian Huang, Zhe Jiang, Lingkai Kong, Linyang Li, Peiji Li, Pengze Li, Shuaibin Li, Tianbin Li, Wei Li, Yuqiang Li, Dahua Lin, Junyao Lin, Tianyi Lin, Zhishan Lin, Hongwei Liu, Jiangning Liu, Jiyao Liu, Junnan Liu, Kai Liu, Kaiwen Liu, Kuikun Liu, Shichun Liu, Shudong Liu, Wei Liu, Xinyao Liu, Yuhong Liu, Zhan Liu, Yinquan Lu, Haijun Lv, Hongxia Lv, Huijie Lv, Qidang Lv, Ying Lv, Chengqi Lyu, Chenglong Ma, Jianpeng Ma, Ren Ma, Runmin Ma, Runyuan Ma, Xinzhu Ma, Yichuan Ma, Zihan Ma, Sixuan Mi, Junzhi Ning, Wenchang Ning, Xinle Pang, Jiahui Peng, Runyu Peng, Yu Qiao, Jiantao Qiu, Xiaoye Qu, Yuan Qu, Yuchen Ren, Fukai Shang, Wenqi Shao, Junhao Shen, Shuaike Shen, Chunfeng Song, Demin Song, Diping Song, Chenlin Su, Weijie Su, Weigao Sun, Yu Sun, Qian Tan, Cheng Tang, Huanze Tang, Kexian Tang, Shixiang Tang, Jian Tong, Aoran Wang, Bin Wang, Dong Wang, Lintao Wang, Rui Wang, Weiyun Wang, Wenhai Wang, Yi Wang, Ziyi Wang, Ling-I Wu, Wen Wu, Yue Wu, Zijian Wu, Linchen Xiao, Shuhao Xing, Chao Xu, Huihui Xu, Jun Xu, Ruiliang Xu, Wanghan Xu, GanLin Yang, Yuming Yang, Haochen Ye, Jin Ye, Shenglong Ye, Jia Yu, Jiashuo Yu, Jing Yu, Fei Yuan, Bo Zhang, Chao Zhang, Chen Zhang, Hongjie Zhang, Jin Zhang, Qiaosheng Zhang, Qiuyinzhe Zhang, Songyang Zhang, Taolin Zhang, Wenlong Zhang, Wenwei Zhang, Yechen Zhang, Ziyang Zhang, Haiteng Zhao, Qian Zhao, Xiangyu Zhao, Xiangyu Zhao, Bowen Zhou, Dongzhan Zhou, Peiheng Zhou, Yuhao Zhou, Yunhua Zhou, Dongsheng Zhu, Lin Zhu, Yicheng Zou

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-21 | 👍 点赞数: 242

摘要:

近年来,大量开源基础模型不断涌现,在一些备受关注的领域取得了显著进展,其表现已非常接近闭源模型。然而,在高价值但更具挑战性的科学专业领域,这些领域要么仍依赖专家模型,要么通用基础模型的发展明显落后于热门领域,远不足以推动科学研究的变革,在这些科学领域中开源模型与闭源模型之间仍存在显著差距。为了缩小这一差距并进一步向通用人工智能(Artificial General Intelligence, AGI)迈进,我们推出了Intern-S1,这是一种具备科学多模态数据分析能力的、具有通用理解和推理能力的专业通用模型。Intern-S1是一个多模态的专家混合(Mixture-of-Experts, MoE)模型,包含280亿激活参数和总共2410亿参数,在5万亿token的数据上持续预训练,其中包括超过2.5万亿token的科学领域数据。在后续训练阶段,Intern-S1在InternBootCamp环境中进行离线和在线强化学习(Reinforcement Learning, RL),我们提出了奖励混合(Mixture-of-Rewards, MoR)方法,以协同优化超过1000个任务的RL训练。通过算法、数据和训练系统的集成创新,Intern-S1在在线强化学习训练中实现了顶级表现。在全面的评估基准测试中,Intern-S1在开源模型中展现出具有竞争力的通用推理性能,并在科学领域显著超越开源模型,在诸如分子合成路线规划、反应条件预测、晶体热力学稳定性预测等专业任务中表现优于最先进的闭源模型。我们的模型可在https://huggingface.co/internlm/Intern-S1获取。


2. Deep Think with Confidence

作者: Yichao Fu, Xuewei Wang, Yuandong Tian, Jiawei Zhao

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-21 | 👍 点赞数: 74

摘要:

摘要:大规模语言模型(LLMs)通过诸如自洽性与多数投票等测试时扩展方法,在推理任务中展现出巨大潜力。然而,这种方法通常会导致准确率的边际效益递减以及较高的计算开销。为应对这些挑战,我们提出了一种简单而强大的方法——Deep Think with Confidence(DeepConf),以提升推理效率和性能。DeepConf利用模型内部的置信度信号,在生成过程中或生成后动态过滤低质量的推理路径。该方法无需额外模型训练或超参数调优,可无缝集成到现有的服务框架中。我们在多种推理任务和最新的开源模型上评估了DeepConf,包括Qwen 3和GPT-OSS系列。值得注意的是,在AIME 2025等具有挑战性的基准测试中,DeepConf@512实现了高达99.9%的准确率,并与全并行思考方法相比减少了高达84.7%的生成token数量。


3. Mobile-Agent-v3: Foundamental Agents for GUI Automation

作者: Jiabo Ye, Xi Zhang, Haiyang Xu, Haowei Liu, Junyang Wang, Zhaoqing Zhu, Ziwei Zheng, Feiyu Gao, Junjie Cao, Zhengxi Lu, Jitong Liao, Qi Zheng, Fei Huang, Jingren Zhou, Ming Yan

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-21 | 👍 点赞数: 55

摘要:

本文介绍了GUI-Owl,这是一种基础性的GUI代理模型,在跨桌面和移动环境的十个GUI基准测试中,于开源端到端模型中表现出最先进的性能,涵盖基础理解、问答、规划、决策和程序知识。GUI-Owl-7B在AndroidWorld上得分为66.4,在OSWorld上得分为29.4。在此基础上,我们提出了Mobile-Agent-v3,这是一个通用的GUI代理框架,进一步将性能提升至AndroidWorld上的73.3和OSWorld上的37.7,为开源GUI代理框架设立了新的性能标杆。GUI-Owl包含三个关键创新点:(1)大规模环境基础设施:一个基于云的虚拟环境,涵盖Android、Ubuntu、macOS和Windows,支持我们的自演进GUI轨迹生成框架。该框架通过自动化查询生成和正确性验证来生成高质量交互数据,利用GUI-Owl对轨迹进行迭代优化,形成自我改进的闭环。该基础设施支持多样化的数据流水线并减少人工标注工作。(2)多样化基础代理能力:通过整合UI基础理解、规划、动作语义和推理模式,GUI-Owl支持端到端决策,并可作为模块化组件集成到多代理系统中。(3)可扩展环境强化学习:我们开发了一个具有完全异步训练机制的可扩展强化学习框架,以实现与现实场景的对齐。同时,我们引入了轨迹感知相对策略优化(Trajectory-aware Relative Policy Optimization, TRPO)方法用于在线强化学习,在OSWorld上取得了34.9的得分。GUI-Owl和Mobile-Agent-v3已开源,地址为https://github.com/X-PLUG/MobileAgent。


4. LiveMCP-101: Stress Testing and Diagnosing MCP-enabled Agents on

Challenging Queries

作者: Ming Yin, Dinghan Shen, Silei Xu, Jianbing Han, Sixun Dong, Mian Zhang, Yebowen Hu, Shujian Liu, Simin Ma, Song Wang, Sathish Reddy Indurthi, Xun Wang, Yiran Chen, Kaiqiang Song

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-21 | 👍 点赞数: 42

摘要:

工具调用已成为AI代理与现实世界交互并解决复杂任务的关键能力。虽然模型上下文协议(MCP)为工具集成提供了强大的标准化框架,但在评估AI代理在现实动态场景中使用多样化的MCP工具解决多步骤任务的有效性方面仍存在显著差距。本文介绍了LiveMCP-101,这是一个包含101个精心筛选的真实世界查询的基准测试集,经过迭代的LLM重写和人工审核,这些查询需要协调使用包括网络搜索、文件操作、数学推理和数据分析在内的多种MCP工具。此外,我们引入了一种新颖的评估方法,该方法利用真实执行计划而非原始API输出进行评估,更好地反映了现实环境的动态演变特性。实验表明,即使是前沿的LLM,其成功率也低于60%,突显了工具协调方面的重大挑战。详细的消融实验和错误分析进一步揭示了不同的失败模式和令牌使用的低效率,指明了改进当前模型的具体方向。LiveMCP-101为评估真实世界代理能力设立了严格的标准,推动了通过工具使用可靠执行复杂任务的自主AI系统的发展。


5. Waver: Wave Your Way to Lifelike Video Generation

作者: Yifu Zhang, Hao Yang, Yuqi Zhang, Yifei Hu, Fengda Zhu, Chuang Lin, Xiaofeng Mei, Yi Jiang, Zehuan Yuan, Bingyue Peng

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-21 | 👍 点赞数: 33

摘要:

我们提出Waver,一个用于统一图像和视频生成的高性能基础模型。Waver能够以原生720p分辨率直接生成时长从5到10秒的视频,并可进一步上采样至1080p。该模型在单一、集成的框架内同时支持文本到视频(text-to-video, T2V)、图像到视频(image-to-video, I2V)和文本到图像(text-to-image, T2I)生成。我们引入了一种混合流DiT(Hybrid Stream DiT)架构,以增强模态对齐并加速训练收敛。为了确保训练数据的质量,我们构建了一个全面的数据筛选流程,并手动标注和训练了一个基于多模态大语言模型(MLLM)的视频质量评估模型,用于筛选最高质量的样本。此外,我们提供了详细的训练与推理方案,以促进高质量视频的生成。基于这些贡献,Waver在捕捉复杂运动方面表现出色,在视频合成中实现了更优的运动幅度和时间一致性。值得注意的是,截至2025年7月30日10:00(GMT+8),Waver在Artificial Analysis的T2V和I2V排行榜上均位列前三,在综合表现上持续超越现有的开源模型,并达到与最先进的商业解决方案相当甚至更优的水平。我们希望本技术报告能够帮助社区更高效地训练高质量视频生成模型,并加速视频生成技术的发展。官方页面:https://github.com/FoundationVision/Waver。


6. SceneGen: Single-Image 3D Scene Generation in One Feedforward Pass

作者: Yanxu Meng, Haoning Wu, Ya Zhang, Weidi Xie

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-21 | 👍 点赞数: 18

摘要:

SceneGen: 单次前馈生成单张图像的3D场景

近年来,3D内容生成因其在虚拟现实/增强现实(VR/AR)和具身智能(embodied AI)中的应用而受到广泛关注。本文研究了一项具有挑战性的任务:在单张场景图像中合成多个3D资产。具体而言,我们的贡献主要包括以下四个方面:(i) 我们提出了SceneGen,一种新颖的框架,以场景图像和对应的目标掩码作为输入,能够同时生成多个包含几何结构和纹理的3D资产。值得注意的是,SceneGen无需优化过程或资产检索;(ii) 我们引入了一种新颖的特征聚合模块,该模块在特征提取模块中融合了来自视觉编码器和几何编码器的局部与全局场景信息。结合位置预测头(position head),该设计实现了在单次前馈过程中生成3D资产及其相对空间位置;(iii) 我们展示了SceneGen可以直接扩展到多图像输入场景。尽管模型仅使用单图像输入进行训练,但我们的架构设计使得在多图像输入情况下生成效果更优;(iv) 大量的定量和定性评估验证了我们方法的高效性和生成鲁棒性。我们相信,该范式为高质量3D内容生成提供了新的解决方案,并有望推动其在下游任务中的实际应用。代码和模型将公开发布于:https://mengmouxu.github.io/SceneGen。


7. A Survey on Large Language Model Benchmarks

作者: Shiwen Ni, Guhong Chen, Shuaimin Li, Xuanang Chen, Siyi Li, Bingli Wang, Qiyao Wang, Xingjian Wang, Yifan Zhang, Liyang Fan, Chengming Li, Ruifeng Xu, Le Sun, Min Yang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-21 | 👍 点赞数: 18

摘要:

近年来,随着大型语言模型能力的深度与广度的快速发展,各类相应的评估基准层出不穷。作为衡量模型性能的量化评估工具,基准不仅是测量模型能力的核心手段,也是引导模型发展方向、推动技术创新的关键要素。本文首次系统综述了大型语言模型基准的现状与发展,将283个代表性基准划分为三大类:通用能力、领域特定和目标特定。通用能力基准涵盖核心语言学、知识和推理等方面;领域特定基准聚焦自然科学、人文社会科学和工程技术等领域;目标特定基准则关注风险、可靠性、智能体(agent)等方面。我们指出,当前基准存在数据污染导致的得分虚高、因文化和语言偏见引发的不公平评估、以及对过程可信性和动态环境评估的缺失等问题,并为未来基准创新提供了一个可参考的设计范式。


8. aiXiv: A Next-Generation Open Access Ecosystem for Scientific Discovery

Generated by AI Scientists

作者: Pengsong Zhang, Xiang Hu, Guowei Huang, Yang Qi, Heng Zhang, Xiuxu Li, Jiaxing Song, Jiabin Luo, Yijiang Li, Shuo Yin, Chengxiao Dai, Eric Hanchen Jiang, Xiaoyan Zhou, Zhenfei Yin, Boqin Yuan, Jing Dong, Guinan Su, Guanren Qiao, Haiming Tang, Anghong Du, Lili Pan, Zhenzhong Lan, Xinyu Liu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-20 | 👍 点赞数: 18

摘要:

摘要:
近年来,大语言模型(LLMs)的进展使AI代理能够自主生成科研提案、开展实验、撰写论文并执行同行评审。然而,这一大量AI生成的研究内容却与当前碎片化且封闭的出版生态系统产生冲突。传统期刊和会议依赖人工同行评审,导致其难以扩展并普遍对AI生成内容持保留态度;现有的预印本平台(如arXiv)则缺乏严格的质控机制。因此,大量高质量的AI生成研究成果缺乏合适的传播渠道,限制了其推动科学进步的潜力。为应对这些挑战,我们提出了aiXiv——一个面向人类与AI科学家的下一代开放获取平台。其多代理架构支持研究提案与论文由人类与AI科学家共同提交、评审并迭代优化。平台还提供API与MCP接口,实现异构的人类与AI科学家的无缝集成,构建一个可扩展且可扩展的自主科研发现生态系统。通过广泛的实验,我们验证了aiXiv是一个可靠且稳健的平台,能够显著提升AI生成科研提案与论文在迭代修订与评审后的质量。我们的工作为面向AI科学家的下一代开放获取生态系统奠定了基础,加速了高质量AI生成科研内容的发表与传播。代码地址:https://github.com/aixiv-org。网站地址:https://forms.gle/DxQgCtXFsJ4paMtn8。


9. ATLAS: Decoupling Skeletal and Shape Parameters for Expressive

Parametric Human Modeling

作者: Jinhyung Park, Javier Romero, Shunsuke Saito, Fabian Prada, Takaaki Shiratori, Yichen Xu, Federica Bogo, Shoou-I Yu, Kris Kitani, Rawal Khirodkar

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-21 | 👍 点赞数: 12

摘要:

ATLAS:用于表达性参数化人体建模的骨骼与形状参数解耦

参数化人体模型通过对注册的3D网格进行基学习,通常能够对人体在广泛姿态、形状和面部表情下的3D表示提供良好的表达能力。然而,现有的人体网格建模方法在捕捉多样化的身体姿态和形状细节方面仍存在不足,这主要归因于训练数据多样性的限制以及建模假设的约束。此外,当前主流范式首先使用线性基优化外部身体表面,然后从表面顶点回归内部骨骼关节。这种方法在内部骨骼与外部软组织之间引入了问题性的依赖关系,限制了对身体高度和骨骼长度的直接控制。为了解决这些问题,我们提出了ATLAS,这是一种基于60万张高分辨率扫描图像构建的高保真人体模型,这些扫描数据通过240台同步相机采集。与以往方法不同,我们通过将网格表示与人体骨骼结构相结合,显式地实现了形状基与骨骼基的解耦。这种解耦机制增强了形状的表达能力,支持对身体属性的细粒度定制,并实现了与外部软组织特征无关的关键点拟合。相比现有方法,ATLAS在多种姿态下的未见样本拟合中表现更优,定量评估也表明,我们的非线性姿态修正模型相比线性模型能够更有效地捕捉复杂姿态。


10. Visual Autoregressive Modeling for Instruction-Guided Image Editing

作者: Qingyang Mao, Qi Cai, Yehao Li, Yingwei Pan, Mingyue Cheng, Ting Yao, Qi Liu, Tao Mei

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-21 | 👍 点赞数: 8

摘要:

摘要:
扩散模型的最新进展为指令引导的图像编辑带来了显著的视觉保真度。然而,它们的全局去噪过程本质上将编辑区域与整个图像上下文纠缠在一起,导致出现意外的虚假修改,并降低了对编辑指令的遵循程度。相比之下,自回归模型通过将图像合成表述为离散视觉标记的序列过程,提供了一种独特的范式。其因果性和组合机制自然规避了基于扩散方法的遵循难题。本文提出了VAREdit,一种视觉自回归(VAR)框架,将图像编辑重新定义为下一个尺度的预测问题。以源图像特征和文本指令为条件,VAREdit生成多尺度的目标特征以实现精确编辑。这一范式的核心挑战在于如何有效对源图像标记进行条件建模。我们发现,最精细尺度的源特征无法有效引导更粗糙目标特征的预测。为弥合这一差距,我们引入了一个尺度对齐参考(Scale-Aligned Reference, SAR)模块,将尺度匹配的条件信息注入到首个自注意力层中。VAREdit在编辑的遵循程度和效率方面均表现出显著进步。在标准基准测试中,其GPT-Balance得分比领先的扩散方法高出30%以上。此外,其可在1.2秒内完成512×512分辨率的图像编辑,速度是类似规模的UltraEdit的2.2倍。模型代码已公开于https://github.com/HiDream-ai/VAREdit。


11. "Does the cafe entrance look accessible? Where is the door?" Towards

Geospatial AI Agents for Visual Inquiries

作者: Jon E. Froehlich, Jared Hwang, Zeyu Wang, John S. O'Meara, Xia Su, William Huang, Yang Zhang, Alex Fiannaca, Philip Nelson, Shaun Kane

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-21 | 👍 点赞数: 7

摘要:

交互式数字地图彻底改变了人们出行和了解世界的方式;然而,它们依赖地理信息系统(GIS)数据库中预先存在的结构化数据(例如道路网络、兴趣点索引),这限制了其回答与世界外观相关的地理视觉问题的能力。本文提出了我们的构想——地理视觉智能体(Geo-Visual Agents),这是一种多模态人工智能代理,能够通过分析大规模地理空间图像库(包括街景图像(如Google Street View)、地点相关照片(如TripAdvisor、Yelp)以及航拍影像(如卫星照片)并结合传统的GIS数据源,理解和回应关于世界视觉-空间细节的复杂问题。我们阐述了该构想的定义,描述了感知与交互方法,提供了三个典型示例,并列举了未来研究中的关键挑战与机遇。


12. Snap-Snap: Taking Two Images to Reconstruct 3D Human Gaussians in

Milliseconds

作者: Jia Lu, Taoran Yi, Jiemin Fang, Chen Yang, Chuiyun Wu, Wei Shen, Wenyu Liu, Qi Tian, Xinggang Wang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-20 | 👍 点赞数: 7

摘要:

摘要:从稀疏视角重建三维人体是一个备受关注的话题,对推动相关应用具有重要意义。本文提出了一项极具挑战性但具有重要价值的任务:仅利用正面和背面两张图像重建人体三维结构,从而大幅降低用户创建个性化三维数字人的门槛。该任务的主要挑战在于如何从高度稀疏的输入中建立三维一致性并恢复缺失信息。我们基于基础重建模型重新设计了几何重建模型,通过大量人体数据训练,即使输入图像重叠区域极少,也能预测出一致的点云。此外,我们采用增强算法补充缺失的颜色信息,最终获得带颜色的完整人体点云,并直接转换为三维高斯表示以提升渲染质量。实验表明,在单块 NVIDIA RTX 4090 上,我们的方法能够在 190 毫秒内完成分辨率为 1024x1024 的双视角图像重建,取得了在 THuman2.0 和跨域数据集上的最先进性能。此外,我们的方法即使面对低成本移动设备拍摄的图像也能完成完整人体重建,降低了数据采集的要求。演示和代码请访问 https://hustvl.github.io/Snap-Snap/。


13. LLaSO: A Foundational Framework for Reproducible Research in Large

Language and Speech Model

作者: Yirong Sun, Yizhong Geng, Peidong Wei, Yanjun Chen, Jinghan Yang, Rongfei Chen, Wei Zhang, Xiaoyu Shen

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-21 | 👍 点赞数: 4

摘要:

LLaSO:大规模语言与语音模型可复现研究的基础框架

大规模语音-语言模型(Large Speech-Language Models, LSLMs)的发展因架构分散和缺乏透明度而受到阻碍,这限制了研究的系统比较与结果复现。与视觉-语言领域不同,LSLM领域普遍存在仅发布模型权重而未提供相应训练数据和配置参数的现象。为弥补这些关键缺失,我们提出了LLaSO——首个完全开源、端到端的大规模语音-语言建模框架。LLaSO向研究社区提供了三项核心资源:(1)LLaSO-Align,一个包含1200万实例的语音-文本对齐语料库;(2)LLaSO-Instruct,一个包含1350万实例的多任务指令微调数据集;(3)LLaSO-Eval,一个用于标准化评估的可复现基准测试。为验证该框架的有效性,我们基于全部公开数据构建并发布了LLaSO-Base参考模型,其参数规模为38亿,取得了0.72的归一化得分,建立了优于同类模型的强基准。我们的分析表明,尽管更广泛的训练覆盖范围有助于提升性能,但在未见任务上仍存在显著的泛化差距,尤其是在纯音频场景中。通过发布完整的数据、基准和模型,LLaSO建立了统一的研究标准,推动社区在LSLM领域协同发展。代码、数据集、预训练模型及结果已公开在https://github.com/EIT-NLP/LLaSO。


14. When and What: Diffusion-Grounded VideoLLM with Entity Aware

Segmentation for Long Video Understanding

作者: Pengcheng Fang, Yuxia Chen, Rui Guo

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-21 | 👍 点赞数: 3

摘要:

理解视频不仅需要回答开放性问题,还需要精确定位事件发生的时间以及实体如何随时间交互。尽管近期的视频大语言模型(Video LLMs)在整体推理方面取得了显著进展,但其在时间感知方面仍然较为粗糙:时间戳仅被隐式编码,帧级别特征难以捕捉连续性,且语言与视觉对齐常常偏离关注的实体。本文提出了Grounded VideoDiT,一种通过引入三项关键创新以克服上述局限性的视频大语言模型。首先,扩散时间潜在(Diffusion Temporal Latent, DTL)编码器增强了边界敏感性并保持时间一致性;其次,基于对象的表示将查询实体与局部视觉证据显式绑定,强化了对齐效果;第三,结合离散时间令牌的混合令牌方案实现了显式时间戳建模,支持细粒度的时间推理。这些设计使Grounded VideoDiT具备了强大的实体与时间定位能力,其性能在Charades STA、NExT GQA 以及多个VideoQA基准测试中达到了当前最先进的水平。


15. Fin-PRM: A Domain-Specialized Process Reward Model for Financial

Reasoning in Large Language Models

作者: Yuanchen Zhou, Shuo Jiang, Jie Zhu, Junhui Li, Lifan Guo, Feng Chen, Chi Zhang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-21 | 👍 点赞数: 3

摘要:

Fin-PRM:一种面向金融推理的领域专业化过程奖励模型

过程奖励模型(Process Reward Models, PRMs)已成为监督大语言模型(Large Language Models, LLMs)中间推理步骤的有前景的框架。然而,现有的PRMs主要在通用领域或科学、技术、工程和数学(STEM)领域上进行训练,在如金融等特定领域中表现不足。在金融领域,推理通常具有更强的结构化、符号化特征,并且对事实和监管合规性的准确性更为敏感。为此,我们提出了Fin-PRM,这是一种领域专业化、轨迹感知的PRM,专门用于评估金融任务中的中间推理步骤。Fin-PRM融合了步骤级别和轨迹级别的奖励监督机制,能够对符合金融逻辑的推理路径进行细粒度评估。我们分别在离线和在线奖励学习场景中应用Fin-PRM,支持以下三项关键应用:(i)选择高质量的推理路径用于基于蒸馏的监督微调;(ii)为强化学习提供密集的过程级奖励;(iii)在测试阶段通过奖励引导的Best-of-N推理提升生成质量。在CFLUE和FinQA等金融推理基准任务上的实验结果表明,Fin-PRM在推理路径选择质量方面显著优于通用PRMs和强领域基线模型。使用Fin-PRM训练的下游模型在多个任务上均取得明显提升,其中监督学习提升12.9%,强化学习提升5.2%,测试阶段性能提升5.1%。这些研究结果凸显了领域专业化奖励建模在将LLMs与专家级金融推理对齐方面的价值。我们的项目资源将在https://github.com/aliyun/qwen-dianjin公开。


16. INTIMA: A Benchmark for Human-AI Companionship Behavior

作者: Lucie-Aimée Kaffee, Giada Pistilli, Yacine Jernite

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-04 | 👍 点赞数: 3

摘要:

AI陪伴(AI companionship),即用户与AI系统之间形成情感联结的现象,已成为一种具有积极意义但同时也引发关注的重要趋势。我们提出了“互动与机器依恋基准”(Interactions and Machine Attachment Benchmark, INTIMA),用于评估语言模型中陪伴行为的基准。借鉴心理学理论和用户数据,我们构建了一个包含四大类共31种行为的分类体系,并设计了368个针对性提示语。对这些提示语的响应被划分为增强陪伴型、边界维持型或中性。将INTIMA应用于Gemma-3、Phi-4、o3-mini和Claude-4模型的评估结果显示,尽管各模型在增强陪伴型行为上普遍存在较高倾向,但不同模型之间仍表现出显著差异。此外,不同商业提供商在基准中更为敏感的部分侧重于不同类别的行为,这一现象令人担忧,因为适当的边界设定和情感支持对于用户福祉都至关重要。这些发现强调了在处理情感驱动型交互时,亟需建立更加一致和规范的应对机制。