每日论文 - 2025年09月20日
论文总数: 20
1. ScaleCUA: Scaling Open-Source Computer Use Agents with Cross-Platform Data
作者: Zhaoyang Liu, JingJing Xie, Zichen Ding, Zehao Li, Bowen Yang, Zhenyu Wu, Xuehui Wang, Qiushi Sun, Shi Liu, Weiyun Wang, Shenglong Ye, Qingyun Li, Zeyue Tian, Gen Luo, Xiangyu Yue, Biqing Qi, Kai Chen, Bowen Zhou, Yu Qiao, Qifeng Chen, Wenhai Wang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-18 | 👍 点赞数: 101
摘要:
论文标题:ScaleCUA:通过跨平台数据扩展开源计算机使用代理
摘要:
视觉-语言模型(Vision-Language Models, VLMs)使得能够自主操作图形用户界面(GUI)的计算机使用代理(Computer Use Agents, CUAs)成为可能,展现出巨大潜力。然而,由于缺乏大规模、开源的计算机使用数据和基础模型,该领域的发展受到限制。在本研究中,我们提出了ScaleCUA,旨在推动开源CUA的规模化发展。我们构建了一个覆盖6种操作系统和3个任务领域的大型数据集,该数据集通过一个闭环流水线生成,结合了自动化代理与人类专家的协作。基于这一大规模数据训练出的ScaleCUA能够在不同平台之间无缝操作。具体而言,该模型在多个基准上显著优于基线方法(在WebArena-Lite-v2上提升+26.6,在ScreenSpot-Pro上提升+10.7),并在多个权威测试集上取得了新的最先进性能(MMBench-GUI L1-Hard达到94.4%,OSWorld-G达到60.6%,WebArena-Lite-v2达到47.4%)。这些结果凸显了数据驱动规模化对通用型计算机使用代理的重要作用。我们将公开发布数据、模型和代码,以促进后续研究:https://github.com/OpenGVLab/ScaleCUA。
2. FlowRL: Matching Reward Distributions for LLM Reasoning
作者: Xuekai Zhu, Daixuan Cheng, Dinghuai Zhang, Hengli Li, Kaiyan Zhang, Che Jiang, Youbang Sun, Ermo Hua, Yuxin Zuo, Xingtai Lv, Qizheng Zhang, Lin Chen, Fanghao Shao, Bo Xue, Yunchong Song, Zhenjie Yang, Ganqu Cui, Ning Ding, Jianfeng Gao, Xiaodong Liu, Bowen Zhou, Hongyuan Mei, Zhouhan Lin
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-18 | 👍 点赞数: 101
摘要:
论文标题:FlowRL:通过匹配奖励分布实现大语言模型推理
中文摘要:
我们提出了FlowRL:一种通过流平衡(flow balancing)来匹配完整奖励分布的方法,而非在大语言模型(LLM)的强化学习(RL)中直接最大化奖励。近期先进的推理模型普遍采用奖励最大化方法(例如PPO和GRPO),这类方法容易过度优化主导性的奖励信号,而忽略那些出现频率较低但同样有效的推理路径,从而导致生成结果的多样性下降。相比之下,我们引入可学习的配分函数,将标量奖励转化为归一化的目标分布,并最小化策略分布与该目标分布之间的逆KL散度。我们将 这一思想实现为一种流平衡优化方法,以促进多样化的探索和可泛化的推理轨迹。我们在数学推理和代码推理任务上进行了实验验证:在数学基准测试中,FlowRL相比GRPO平均提升了10.0%,相比PPO提升了5.1%;在代码推理任务上也 consistently 表现出更优的性能。实验结果表明,奖励分布匹配是实现高效探索与多样化推理的关键步骤,对提升大语言模型强化学习效果具有重要意义。
3. Reasoning over Boundaries: Enhancing Specification Alignment via
Test-time Delibration
作者: Haoran Zhang, Yafu Li, Xuyang Hu, Dongrui Liu, Zhilin Wang, Bo Li, Yu Cheng
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-18 | 👍 点赞数: 50
摘要:
论文标题:跨越边界进行推理:通过测试时审思增强规范对齐
中文摘要:
大语言模型(LLMs)正被 increasingly 应用于多种真实世界场景中,每个场景都由用户或组织定制的特定行为与安全规范(spec)所约束。这些规范可分为安全规范(safety-spec)和行为规范(behavioral-spec),在不同场景中各不相同,并随着偏好和需求的变化而动态演进。我们将这一挑战形式化为“规范对齐”问题,聚焦于大语言模型在行为与安全两个维度上遵循动态、场景特定规范的能力。为应对该挑战,我们提出了Align3——一种轻量级方法,采用测试时审思(Test-Time Deliberation, TTD),结合分层反思与修订机制,对规范边界进行推理。进一步地,我们构建了SpecBench,一个统一的规范对齐评测基准,涵盖5个场景、103项规范和1,500个提示语。在15个推理模型和18个指令微调模型上的实验,结合包括Self-Refine、TPO和MoreThink在内的多种TTD方法,得出三个关键发现:(i)测试时审思能够有效提升规范对齐能力;(ii)Align3以极低开销推动了安全性与有用性之间的权衡前沿;(iii)SpecBench能有效揭示当前模型在规范对齐方面的不足。这些结果凸显了测试时审思作为应对现实世界规范边界推理任务的一种高效策略的潜力。
4. Evolving Language Models without Labels: Majority Drives Selection,
Novelty Promotes Variation
作者: Yujun Zhou, Zhenwen Liang, Haolin Liu, Wenhao Yu, Kishan Panaganti, Linfeng Song, Dian Yu, Xiangliang Zhang, Haitao Mi, Dong Yu
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-18 | 👍 点赞数: 32
摘要:
论文标题:无需标签的语言模型进化:多数决定选择,新颖性促进变异
中文摘要:
大型语言模型(LLMs)正越来越多地通过可验证奖励的强化学习(RLVR)进行训练。然而,在实际应用中,人们期望模型能够在没有标签或外部评判的情况下实现自我提升。现有的无标签方法——如置信度最小化、自洽性或多数投票目标——虽然能够稳定学习过程,但会逐渐抑制探索行为,导致熵崩溃现象:生成结果变得更短、多样性降低且脆弱。与以往诸如测试时强化学习(Test-Time Reinforcement Learning, TTRL)等主要针对当前无标签数据集进行适应的方法不同,我们的目标更为广泛:在不牺牲模型内在探索能力和泛化能力的前提下实现通用性能提升,即实现“进化”。我们对此问题进行了形式化建模,并提出了一种面向进化、无需标签的强化学习方法(EVOL-RL),该方法在无标签设定下将稳定性与变异性相结合。EVOL-RL 将多数投票答案保留为稳定的锚点(选择机制),同时引入一种感知新颖性的奖励机制,鼓励生成在推理路径上不同于已有输出的回答(变异机制),并通过语义空间中的表示来衡量差异。基于GRPO框架实现,EVOL-RL 还采用非对称裁剪以保留强信号,并使用熵正则项维持搜索活力。这种“多数用于选择 + 新颖性用于变异”的设计有效防止了多样性崩溃,保持了更长且更具信息量的思维链,显著提升了 pass@1 和 pass@n 指标。EVOL-RL 始终优于仅依赖多数投票的 TTRL 基线方法;例如,在无标签的 AIME24 数据集上训练后,Qwen3-4B-Base 模型在 AIME25 上的 pass@1 从 TTRL 的 4.6% 提升至 16.4%,pass@16 则从 18.5% 提高到 37.9%。EVOL-RL 不仅避免了多样性崩溃,还展现出跨领域(如 GPQA)更强的泛化能力。此外,我们还证明 EVOL-RL 在 RLVR 设定下同样能提升性能,进一步凸显其广泛的适用性。
5. WorldForge: Unlocking Emergent 3D/4D Generation in Video Diffusion Model
via Training-Free Guidance
作者: Chenxi Song, Yanming Yang, Tong Zhao, Ruibo Li, Chi Zhang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-18 | 👍 点赞数: 30
摘要:
论文标题:WorldForge:通过无需训练的引导机制解锁视频扩散模型中的涌现式3D/4D生成
中文摘要:
近年来,视频扩散模型因其丰富的潜在世界先验,在空间智能任务中展现出强大的潜力。然而,由于其可控性有限且几何一致性不足,导致这些先验知识在实际应用于3D/4D任务时存在显著差距。因此,现有方法通常依赖重新训练或微调,但这可能损害预训练获得的知识,并带来高昂的计算成本。为解决这一问题,我们提出了WorldForge——一种无需训练、在推理阶段即可使用的框架,由三个紧密耦合的模块组成。步内递归优化(Intra-Step Recursive Refinement) 在推理过程中引入递归优化机制,在每个去噪步骤内部多次优化网络预测,从而实现精确的轨迹注入;光流门控的潜在融合(Flow-Gated Latent Fusion) 利用光流 相似性在潜在空间中解耦运动与外观信息,并选择性地将轨迹引导注入与运动相关的通道;双路径自校正引导(Dual-Path Self-Corrective Guidance) 通过比较有引导和无引导的去噪路径,自适应地纠正由噪声或结构信号错位引起的轨迹漂移。上述组件协同工作,在无需任何训练的前提下注入细粒度、与轨迹对齐的控制信号,实现了精确的运动控制与高真实感内容生成。大量跨多个基准的实验验证了本方法在视觉真实感、轨迹一致性和图像保真度方面的优越性能。本研究提出了一种全新的即插即用范式,用于可控视频合成,为利用生成模型先验进行空间智能任务提供了新的视角。
6. AToken: A Unified Tokenizer for Vision
作者: Jiasen Lu, Liangchen Song, Mingze Xu, Byeongjoo Ahn, Yanjun Wang, Chen Chen, Afshin Dehghan, Yinfei Yang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-17 | 👍 点赞数: 30
摘要:
论文标题:AToken:一种用于视觉的统一Tokenizer
中文摘要:
本文提出AToken,这是首个能够在图像、视频和3D资产上同时实现高保真重建与语义理解的统一视觉tokenizer。不同于现有仅针对单一模态、且专注于重建或理解任务的tokenizer,AToken将这些多样化的视觉输入 编码到一个共享的四维(4D)潜在空间中,从而在一个统一框架下实现了任务与模态的双重融合。具体而言,我们设计了一种纯Transformer架构,并引入4D旋转位置嵌入,以处理任意分辨率和时间长度的视觉输入。为确保训练稳定性,我们提出了一种无需对抗训练的目标函数,结合感知损失和Gram矩阵损失,在重建质量方面达到了当前最优水平。通过采用渐进式训练策略,AToken逐步扩展至单张图像、视频和3D数据,支持连续型与离散型潜在token。实验结果显示,AToken在图像任务上达到0.21的rFID和82.2%的ImageNet分类准确率,在视频任务上实现3.01的rFVD和32.6%的MSRVTT检索准确率,在3D任务上取得28.19的PSNR和90.9%的分类准确率。在下游应用中,AToken同时支持视觉生成任务(如基于连续与离散token的图像生成、文本到视频生成、图像到3D合成)和理解任务(如多模态大语言模型),在各类基准测试中均表现出具有竞争力的性能。本研究为基于统一视觉token化的下一代多模态人工智能系统提供了重要启示。
7. FinSearchComp: Towards a Realistic, Expert-Level Evaluation of Financial
Search and Reasoning
作者: Liang Hu, Jianpeng Jiao, Jiashuo Liu, Yanle Ren, Zhoufutu Wen, Kaiyuan Zhang, Xuanliang Zhang, Xiang Gao, Tianci He, Fei Hu, Yali Liao, Zaiyuan Wang, Chenghao Yang, Qianyu Yang, Mingren Yin, Zhiyuan Zeng, Ge Zhang, Xinyi Zhang, Xiying Zhao, Zhenwei Zhu, Hongseok Namkoong, Wenhao Huang, Yuwen Tang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-16 | 👍 点赞数: 29
摘要:
论文标题:FinSearchComp:迈向真实、专家级别的金融搜索与推理能力评估
中文摘要:
搜索已成为基于大语言模型(LLM)智能体的核心基础设施,被广泛视为实现更通用智能的关键路径之一。金融领域尤其具有挑战性,是理想的验证场景:分析师通常需要在时效性强、专业性高的数据上进行复杂、多步骤的检索,这使其成为评估搜索能力与知识驱动推理的理想环境。然而,目前尚无公开的金融数据集能够对端到端智能体的数据搜索能力进行全面评测,主要原因在于构建真实且复杂的任务需要深厚的金融专业知识,而时效性数据也难以有效评估。为此,我们提出了FinSearchComp——首个完全开源的、面向真实开放领域金融搜索与推理能力的智能体评测基准。FinSearchComp包含三项任务:时效数据获取、简单历史查询和复杂历史调查,紧密复现了现实世界中金融分析师的工作流程。为确保任务难度与标注可靠性,我们邀请了70位专业金融专家参与标注,并建立了严格的多阶段质量控制流程。该基准涵盖635个问题,覆盖全球市场及大中华地区市场,我们在此基础上评测了21个模型(或产品)。实验结果显示,Grok 4(联网版)在全球子集上表现最佳,准确率接近专家水平;DouBao(联网版)在大中华地区子集中领先。进一步分析表明,在智能体中集成网络搜索与金融专用插件可显著提升FinSearchComp上的表现,且模型 与工具的国别来源对性能有显著影响。通过贴近真实分析师任务并提供端到端的评估方式,FinSearchComp为复杂金融搜索与推理能力提供了一个专业化、高难度的测试平台。
8. Understand Before You Generate: Self-Guided Training for Autoregressive
Image Generation
作者: Xiaoyu Yue, Zidong Wang, Yuqing Wang, Wenlong Zhang, Xihui Liu, Wanli Ouyang, Lei Bai, Luping Zhou
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-18 | 👍 点赞数: 27
摘要:
论文标题:生成之前先理解:面向自回归图像生成的自指导训练
中文摘要:
近期研究表明,高质量的视觉表征在图像生成中具有重要作用,同时也揭示了生成模型在图像理解能力方面的局限性。作为最初为自然语言设计的一种生成范式,自回归模型在应用于视觉任务时也面临类似挑战。本文首次系统性地探究了将“下一个标记预测”(next-token prediction)范式应用于视觉领域的机制。我们识别出阻碍高层视觉语义学习的三个关键问题:局部性与条件依赖性、跨步长语义不一致性,以及空间不变性缺失。我们证明,通过在训练过程中引入自监督目标,可以有效缓解这些问题,从而提出一种新颖的训练框架——面向自回归模型的自指导训练(Self-guided Training for AutoRegressive models, ST-AR)。ST-AR 不依赖任何预训练的表征模型,显著提升了自回归模型的图像理解能力,并改善了生成质量。具体而言,在保持相同采样策略的前提下,ST-AR 使 LlamaGen-L 的 FID 指标提升了约 42%,LlamaGen-XL 的 FID 指标提升了约 49%。
9. RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation
作者: Yuming Jiang, Siteng Huang, Shengke Xue, Yaxi Zhao, Jun Cen, Sicong Leng, Kehan Li, Jiayan Guo, Kexiang Wang, Mingxiu Chen, Fan Wang, Deli Zhao, Xin Li
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-18 | 👍 点赞数: 20
摘要:
论文标题:RynnVLA-001:利用人类示范提升机器人操作能力
中文摘要:
本文提出了RynnVLA-001,一种基于大规模人类示范视频进行生成式预训练的视觉-语言-动作(Vision-Language-Action, VLA)模型。我们提出了一种新颖的两阶段预训练方法。第一阶段为“以自我为中心的视频生成式预训练”(Ego-Centric Video Generative Pretraining),在1200万条以自 我为中心的操纵类视频数据上训练一个图像到视频(Image-to-Video)模型,使其能够根据初始帧和语言指令预测未来的视频帧。第二阶段为“以人为中心的轨迹感知建模”(Human-Centric Trajectory-Aware Modeling),在此基础上进一步联合预测未来关键点的运动轨迹,从而有效连接视觉帧预测与动作预测。此外,为了增强动作表征能力,我们提出了ActionVAE——一种变分自编码器,可将动作序列压缩为紧凑的潜在嵌入表示,降低VLA模型输出空间的复杂性。在相同的下游机器人数据集上进行微调后,RynnVLA-001相较于当前最先进的基线模型表现出更优的性能,验证了所提出的预训练策略能为VLA模型提供更有效的初始化。
10. MultiEdit: Advancing Instruction-based Image Editing on Diverse and
Challenging Tasks
作者: Mingsong Li, Lin Liu, Hongjun Wang, Haoxing Chen, Xijun Gu, Shizhan Liu, Dong Gong, Junbo Zhao, Zhenzhong Lan, Jianguo Li
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-18 | 👍 点赞数: 11
摘要:
论文标题:MultiEdit:推动基于指令的图像编辑在多样化与挑战性任务上的发展
中文摘要:
当前基于指令的图像编辑(IBIE)方法在应对复杂编辑任务时面临困难,主要原因在于现有数据集的编辑类型有限且样本数量不足。此外,传统的数据集构建方式常包含噪声较大的图像-文本对,这可能引入偏差,并限制模型在复杂编辑场景中的能力。为解决这些问题,我们提出了MultiEdit,一个包含超过10.7万高质量图像编辑样本的综合性数据集。该数据集涵盖了6种具有挑战性的编辑任务,包含18种非风格迁移类编辑类型和38种风格迁移操作,范围从复杂的风格迁移,到诸如人物指代编辑和图像内文本编辑等复杂的语义操作。我们采用一种新颖的数据集构建流程,利用两个多模态大语言模型(MLLMs),分别生成视觉自适应的编辑指令和高保真的编辑后图像。大量实验表明,使用我们的MultiEdit-Train子集对基础开源模型进行微调,能显著提升模型在所提出的MultiEdit-Test基准上处理复杂编辑任务的性能,同时有效保持其在标准编辑基准上的原有能力。我们认为,MultiEdit为推进更加多样化和更具挑战性的IBIE研究提供了宝贵的资源。本数据集已公开发布于 https://huggingface.co/datasets/inclusionAI/MultiEdit。
11. Apertus: Democratizing Open and Compliant LLMs for Global Language
Environments
作者: Alejandro Hernández-Cano, Alexander Hägele, Allen Hao Huang, Angelika Romanou, Antoni-Joan Solergibert, Barna Pasztor, Bettina Messmer, Dhia Garbaya, Eduard Frank Ďurech, Ido Hakimi, Juan García Giraldo, Mete Ismayilzada, Negar Foroutan, Skander Moalla, Tiancheng Chen, Vinko Sabolčec, Yixuan Xu, Michael Aerni, Badr AlKhamissi, Ines Altemir Marinas, Mohammad Hossein Amani, Matin Ansaripour, Ilia Badanin, Harold Benoit, Emanuela Boros, Nicholas Browning, Fabian Bösch, Maximilian Böther, Niklas Canova, Camille Challier, Clement Charmillot, Jonathan Coles, Jan Deriu, Arnout Devos, Lukas Drescher, Daniil Dzenhaliou, Maud Ehrmann, Dongyang Fan, Simin Fan, Silin Gao, Miguel Gila, María Grandury, Diba Hashemi, Alexander Hoyle, Jiaming Jiang, Mark Klein, Andrei Kucharavy, Anastasiia Kucherenko, Frederike Lübeck, Roman Machacek, Theofilos Manitaras, Andreas Marfurt, Kyle Matoba, Simon Matrenok, Henrique Mendoncça, Fawzi Roberto Mohamed, Syrielle Montariol, Luca Mouchel, Sven Najem-Meyer, Jingwei Ni, Gennaro Oliva, Matteo Pagliardini, Elia Palme, Andrei Panferov, Léo Paoletti, Marco Passerini, Ivan Pavlov, Auguste Poiroux, Kaustubh Ponkshe, Nathan Ranchin, Javi Rando, Mathieu Sauser, Jakhongir Saydaliev, Muhammad Ali Sayfiddinov, Marian Schneider, Stefano Schuppli, Marco Scialanga, Andrei Semenov, Kumar Shridhar, Raghav Singhal, Anna Sotnikova, Alexander Sternfeld, Ayush Kumar Tarun, Paul Teiletche, Jannis Vamvas, Xiaozhe Yao, Hao Zhao Alexander Ilic, Ana Klimovic, Andreas Krause, Caglar Gulcehre, David Rosenthal, Elliott Ash, Florian Tramèr, Joost VandeVondele, Livio Veraldi, Martin Rajman, Thomas Schulthess, Torsten Hoefler, Antoine Bosselut, Martin Jaggi, Imanol Schlag
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-17 | 👍 点赞数: 9
摘要:
论文标题:Apertus:面向全球语言环境的开放且合规的大语言模型民主化
中文摘要:
本文提出 Apertus,一个完全开源的大语言模型(LLM)系列,旨在解决当前开源模型生态中的两大系统性缺陷:数据合规性与多语言代表性。与许多仅发布模型权重却缺乏可复现数据流程、忽视内容所有者权利的先前模型不同,Apertus 模型的预训练仅使用公开可用的数据,并回溯性地遵守 robots.txt 排除规则,同时过滤非许可性、有害以及包含个人身份信息的内容。为降低记忆化风险,我们在预训练中采用 Goldfish 目标函数,在显著抑制对训练数据逐字复现的同时,保持下游任务的良好性能。Apertus 模型还扩展了多语言覆盖能力,基于来自超过 1800 种语言的约 15 万亿 token 进行训练,其中约 40% 的预训练数据为非英语内容。该模型以 80 亿和 700 亿参数两个规模发布,在多语言基准测试中,其性能在完全开源模型中接近最先进水平,媲美甚至超越其他开源权重模型。除了模型权重外,我们还以宽松许可协议公开了整个研发周期中的全部科学成果,包括数据处理脚本、检查点、评测套件和训练代码,从而实现透明审查与进一步扩展。
12. Agentic Software Engineering: Foundational Pillars and a Research
Roadmap
作者: Ahmed E. Hassan, Hao Li, Dayi Lin, Bram Adams, Tse-Hsun Chen, Yutaro Kashiwa, Dong Qiu
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-07 | 👍 点赞数: 7
摘要:
论文标题:自主型软件工程:基础支柱与研究路线图
中文摘要:
自主型软件工程(SE 3.0)标志着一个新时代的到来,在这一时代中,智能代理(agents)所承担的任务不再局限于简单的代码生成,而是致力于实现复杂且以目标为导向的软件工程(SE)任务。为了在充分发挥这些新能力的同时确保系统的可信性,我们必须认识到在自主型软件工程时代,软件工程领域内部存在一种根本性的二元结构,即“面向人类的软件工程”(SE for Humans)与“面向代理的软件工程”(SE for Agents),二者相互依存、协同发展。这种二元性要求我们对软件工程的四大基础支柱——参与者(actors)、流程(processes)、工具(tools)和制品(artifacts)——进行根本性的重构,使其在两种模式下呈现出不同的形态。
为此,我们提出了两个专用的工作平台来支撑这一愿景。代理指挥环境(Agent Command Environment, ACE)作为指挥中心,供人类用户协调并指导代理团队的工作,处理诸如“合并就绪包”(Merge-Readiness Packs, MRPs)和“咨询请求包”(Consultation Request Packs, CRPs)等输出成果。