每日论文 - 2025年08月25日
论文总数: 18
1. Beyond Pass@1: Self-Play with Variational Problem Synthesis Sustains
RLVR
作者: Xiao Liang, Zhongzhi Li, Yeyun Gong, Yelong Shen, Ying Nian Wu, Zhijiang Guo, Weizhu Chen
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-19 | 👍 点赞数: 114
摘要:
强化学习与可验证奖励(RLVR)最近成为大型语言模型(LLMs)后训练的关键范式,尤其适用于复杂推理任务。然而,已有研究表明,基础的RLVR训练在提升Pass@1性能的同时会降低策略熵,从而限制生成多样性并影响Pass@k性能,而后者通常代表LLM推理能力的上限。本文从训练问题的角度出发,系统分析了策略生成多样性的表现,并发现增强和更新训练问题有助于缓解训练过程中 的熵坍缩现象。基于上述观察,我们提出了一种面向RLVR训练的在线Self-play with Variational problem Synthesis(SvS)策略。该方法利用策略生成的正确解合成变体问题,同时确保其参考答案与原问题保持一致。这一自我提升策略有效维持了训练过程中的策略熵,相比标准RLVR显著提升了Pass@k性能,在竞赛级别的AIME24和AIME25基准测试中Pass@32性能分别实现了18.3%和22.8%的绝对提升。我们在12个推理基准测试中对从3B到32B不同规模模型进行的实验一致表明了SvS的普适性和鲁棒性。
2. AgentFly: Fine-tuning LLM Agents without Fine-tuning LLMs
作者: Huichi Zhou, Yihang Chen, Siyuan Guo, Xue Yan, Kin Hei Lee, Zihan Wang, Ka Yiu Lee, Guchun Zhang, Kun Shao, Linyi Yang, Jun Wang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-22 | 👍 点赞数: 107
摘要:
本文提出了一种新的自适应大语言模型(Large Language Model, LLM)代理学习范式,无需对底层LLM进行微调。现有方法通常要么过于僵化,依赖静态、手工设计的反思工作流,要么计算成本高昂,需要对LLM模型参数进行梯度更新。相比之下,我们的方法通过基于记忆的在线强化学习实现低成本的持续适应。我们将此建模为一种增强记忆的马尔可夫决策过程(Memory-augmented Markov Decision Process, M-MDP),并配备一个神经案例选择策略以指导动作决策。过去的经验存储在一种情节记忆中,可以是可微分的,也可以是非参数的。该策略通过记忆重写机制根据环境反馈不断更新,而策略改进则通过高效的记忆读取(检索)实现。我们将代理模型实例化于深度研究场景中,命名为AgentFly,其在GAIA验证集上达到第一名的成绩(87.88% Pass@3),测试集上达到79.40%。在DeepResearcher数据集上,其F1得分为66.6%,PM得分为80.4%,超越了当前最先进的基于训练的方法,而基于案例的记忆在分布外任务上额外提升了4.7%到9.6%的绝对分数。我们的方法为开发能够在没有梯度更新的情况下进行持续、实时学习的通用LLM代理提供了一条可扩展且高效的路径,推动机器学习向开放式技能获取和深度研究场景迈进。
代码地址为 https://github.com/Agent-on-the-Fly/AgentFly
。
3. ODYSSEY: Open-World Quadrupeds Exploration and Manipulation for
Long-Horizon Tasks
作者: Kaijun Wang, Liqin Lu, Mingyu Liu, Jianuo Jiang, Zeju Li, Bolin Zhang, Wancai Zheng, Xinyi Yu, Hao Chen, Chunhua Shen
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-11 | 👍 点赞数: 43
摘要:
语言引导的长视野移动操作一直是具身语义推理、可泛化操作和自适应运动领域的重大挑战。目前存在三个基本限制:首先,尽管大语言模型通过语义先验提升了空间推理和任务规划能力,但现有实现仍局限于桌面场景,未能解决移动平台感知受限和执行器活动范围有限的问题。其次,当前的操作策略在面对开放世界环境中遇到的多样化物体配置时表现出泛化能力不足。第三,在实际部署中至关重要的问题是,在非结构化环境中同时保持平台高机动性和末端执行器精确控制的需求仍未得到充分研究。
本研究提出了ODYSSEY,一个面向配备操作臂的敏捷四足机器人的统一移动操作框架,该框架无缝集成了高层任务规划与底层全身控制。为解决语言条件任务中的自我中心感知挑战,我们引入了一个基于视觉-语言模型的分层规划器,实现了长视野指令分解与精确动作执行。在控制层面,我们提出的全新全身控制策略在复杂地形中实现了鲁棒协调。我们进一步提出了首个面向长视野移动操作的基准测试,评估了多种室内外场景。通过成功的从仿真到现实的迁移,我们验证了系统在真实世界部署中的泛化能力和鲁棒性,突出了足式操作臂在非结构化环境中的实用性。我们的工作推进了能够执行复杂、动态任务的通用机器人助手的可行性。
项目页面:https://kaijwang.github.io/odyssey.github.io/
4. EgoTwin: Dreaming Body and View in First Person
作者: Jingqiao Xiu, Fangzhou Hong, Yicong Li, Mengze Li, Wentao Wang, Sirui Han, Liang Pan, Ziwei Liu
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-18 | 👍 点赞数: 17
摘要:
EgoTwin: 以第一人称视角模拟身体与视野
尽管外视角(exocentric)视频合成已取得显著进展,以自我为中心的(egocentric)视频生成仍鲜有探索,该任务需要对人体运动所引起的摄像机运动模式以及第一人称视角内容进行建模。为填补这一研究空白,我们提出了一项新的联合以自我为中心视频与人体运动生成的任务,其面临两个关键挑战:1)视角对齐:生成视频中的摄像机轨迹必须与从人体运动中提取的头部轨迹精确对齐;2)因果交互:合成的人体运动必须与相邻视频帧间的视觉动态变化保持因果一致性。为应对上述挑战,我们提出了EgoTwin,一个基于扩散变换器(diffusion transformer)架构的视频与运动联合生成框架。具体而言,EgoTwin引入了一种以头部为中心的运动表示方法,将人体运动锚定于头部关节,并结合一种受控制论启发的交互机制,在注意力操作中显式捕捉视频与运动之间的因果互动。为进行全面评估,我们构建了一个大规模的真实场景数据集,包含同步的文本-视频-运动三元组,并设计了新的指标以评估视频与运动之 间的一致性。大量实验验证了EgoTwin框架的有效性。
5. AetherCode: Evaluating LLMs' Ability to Win In Premier Programming
Competitions
作者: Zihan Wang, Jiaze Chen, Zhicheng Liu, Markus Mak, Yidi Du, Geonsik Moon, Luoqi Xu, Aaron Tua, Kunshuo Peng, Jiayi Lu, Mingfei Xia, Boqian Zou, Chenyang Ran, Guang Tian, Shoutai Zhu, Yeheng Duan, Zhenghui Kang, Zhenxing Lin, Shangshu Li, Qiang Luo, Qingshen Long, Zhiyong Chen, Yihan Xiao, Yurong Wu, Daoguang Zan, Yuyi Fu, Mingxuan Wang, Ming Ding
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-22 | 👍 点赞数: 14
摘要:
AetherCode:评估大语言模型在顶级编程竞赛中的竞争力
近年来,竞赛编程已成为评估大语言模型(LLMs)推理与编程能力的重要基准。尽管现有基准测试已取得显著进展,但我们认为当前的评估高估了模型的实际水平,掩盖了LLMs与顶尖人类程序员之间的显著差距。这一差距主要源于两个关键缺陷:基准问题的难度和覆盖范围不足,以及低质量测试用例导致的评估偏差。为解决这些问题,我们提出了AetherCode,一个全新的基准测试,其问题来源于国际信息学奥林匹克竞赛(IOI)和国际大学生程 序设计竞赛(ICPC)等顶级编程赛事,具有更广的覆盖范围和更高的难度。AetherCode进一步引入了由专家验证的全面测试套件,该套件通过自动化生成与人工筛选相结合的方式构建,确保评估的严谨性与可靠性。通过结合高难度问题设计与稳健的评估方法,AetherCode为更真实地衡量LLMs的能力提供了标准,并为代码推理领域的未来研究设立了新的标杆。
6. CRISP: Persistent Concept Unlearning via Sparse Autoencoders
作者: Tomer Ashuach, Dana Arad, Aaron Mueller, Martin Tutek, Yonatan Belinkov
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-19 | 👍 点赞数: 14
摘要:
摘要:随着大语言模型(LLMs)在实际应用中的广泛部署,如何在保留模型效用的同时选择性地移除不需要的知识变得至关重要。近期研究探索了使用稀疏自编码器(Sparse Autoencoders, SAEs)对单义特征进行精确干预。然而,大多数基于SAE的方法仅在推理阶段进行干预,无法对模型参数产生持久性改变。这种干预方式可能被拥有参数访问权限的恶意行为者绕过或逆转。为此,我们提出了CRISP,一种基于SAE的参数高效、持久性概念遗忘方法。CRISP能够自动识别多 个层中的显著SAE特征,并抑制其激活。我们在两个LLM上的实验表明,该方法在WMDP基准中的安全性关键遗忘任务上优于先前方法,成功移除了有害知识,同时保留了通用能力和领域内性能。特征级分析显示,CRISP在目标概念与良性概念之间实现了语义上一致的分离,从而实现了对目标特征的精确抑制。
7. AgentScope 1.0: A Developer-Centric Framework for Building Agentic
Applications
作者: Dawei Gao, Zitao Li, Yuexiang Xie, Weirui Kuang, Liuyi Yao, Bingchen Qian, Zhijian Ma, Yue Cui, Haohao Luo, Shen Li, Lu Yi, Yi Yu, Shiqi He, Zhiling Luo, Wenmeng Zhou, Zhicheng Zhang, Xuguang He, Ziqian Chen, Weikai Liao, Farruh Isakulovich Kushnazarov, Yaliang Li, Bolin Ding, Jingren Zhou
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-22 | 👍 点赞数: 13
摘要:
摘要:
随着大语言模型(LLMs)的快速发展,智能体(agents)能够结合内在知识与动态工具使用,显著增强了其处理实际任务的能力。为顺应这一发展趋势,AgentScope 在新版本(1.0)中引入了多项重大改进,旨在全面支持基于工具的灵活且高效的智能体-环境交互,从而更好地构建智能体应用(agentic applications)。具体而言,我们抽象了构建智能体应用所需的核心组件,并提供了统一的接口和可扩展模块,使开发者能够轻松集成最新进展,例如新模型和MCPs(多能力插件)。此外,我们基于ReAct范式构建智能体行为模型,并通过系统化的异步设计提供先进的智能体层级基础设施,从而丰富了人-智能体与智能体-智能体之间的交互模式,同时提升了执行效率。在此基础上,我们还集成了多个面向特定实际场景的内置智能体。AgentScope 还提供了强大的工程支持以提升开发体验。我们提供了一个可扩展的评估模块及可视化界面(visual studio interface),使长轨迹智能体应用的开发更易于管理与追踪。此外,AgentScope 还提供运行时沙箱(runtime sandbox),以确保智能体的安全执行,并支持在生产环境中的快速部署。通过这些改进,AgentScope 为构建可扩展、自适应且高效的智能体应用提供了实用的基础。
8. Selective Contrastive Learning for Weakly Supervised Affordance
Grounding
作者: WonJun Moon, Hyun Seok Seong, Jae-Pil Heo
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-11 | 👍 点赞数: 12
摘要: