每日论文 - 2025年09月20日

论文总数: 20

1. ScaleCUA: Scaling Open-Source Computer Use Agents with Cross-Platform Data

作者: Zhaoyang Liu, JingJing Xie, Zichen Ding, Zehao Li, Bowen Yang, Zhenyu Wu, Xuehui Wang, Qiushi Sun, Shi Liu, Weiyun Wang, Shenglong Ye, Qingyun Li, Zeyue Tian, Gen Luo, Xiangyu Yue, Biqing Qi, Kai Chen, Bowen Zhou, Yu Qiao, Qifeng Chen, Wenhai Wang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-18 | 👍 点赞数: 101

摘要:

论文标题：ScaleCUA：通过跨平台数据扩展开源计算机使用代理

摘要：
视觉-语言模型（Vision-Language Models, VLMs）使得能够自主操作图形用户界面（GUI）的计算机使用代理（Computer Use Agents, CUAs）成为可能，展现出巨大潜力。然而，由于缺乏大规模、开源的计算机使用数据和基础模型，该领域的发展受到限制。在本研究中，我们提出了ScaleCUA，旨在推动开源CUA的规模化发展。我们构建了一个覆盖6种操作系统和3个任务领域的大型数据集，该数据集通过一个闭环流水线生成，结合了自动化代理与人类专家的协作。基于这一大规模数据训练出的ScaleCUA能够在不同平台之间无缝操作。具体而言，该模型在多个基准上显著优于基线方法（在WebArena-Lite-v2上提升+26.6，在ScreenSpot-Pro上提升+10.7），并在多个权威测试集上取得了新的最先进性能（MMBench-GUI L1-Hard达到94.4%，OSWorld-G达到60.6%，WebArena-Lite-v2达到47.4%）。这些结果凸显了数据驱动规模化对通用型计算机使用代理的重要作用。我们将公开发布数据、模型和代码，以促进后续研究：https://github.com/OpenGVLab/ScaleCUA。

2. FlowRL: Matching Reward Distributions for LLM Reasoning

作者: Xuekai Zhu, Daixuan Cheng, Dinghuai Zhang, Hengli Li, Kaiyan Zhang, Che Jiang, Youbang Sun, Ermo Hua, Yuxin Zuo, Xingtai Lv, Qizheng Zhang, Lin Chen, Fanghao Shao, Bo Xue, Yunchong Song, Zhenjie Yang, Ganqu Cui, Ning Ding, Jianfeng Gao, Xiaodong Liu, Bowen Zhou, Hongyuan Mei, Zhouhan Lin

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-18 | 👍 点赞数: 101

摘要:

论文标题：FlowRL：通过匹配奖励分布实现大语言模型推理

中文摘要：
我们提出了FlowRL：一种通过流平衡（flow balancing）来匹配完整奖励分布的方法，而非在大语言模型（LLM）的强化学习（RL）中直接最大化奖励。近期先进的推理模型普遍采用奖励最大化方法（例如PPO和GRPO），这类方法容易过度优化主导性的奖励信号，而忽略那些出现频率较低但同样有效的推理路径，从而导致生成结果的多样性下降。相比之下，我们引入可学习的配分函数，将标量奖励转化为归一化的目标分布，并最小化策略分布与该目标分布之间的逆KL散度。我们将这一思想实现为一种流平衡优化方法，以促进多样化的探索和可泛化的推理轨迹。我们在数学推理和代码推理任务上进行了实验验证：在数学基准测试中，FlowRL相比GRPO平均提升了10.0%，相比PPO提升了5.1%；在代码推理任务上也 consistently 表现出更优的性能。实验结果表明，奖励分布匹配是实现高效探索与多样化推理的关键步骤，对提升大语言模型强化学习效果具有重要意义。

3. Reasoning over Boundaries: Enhancing Specification Alignment via

Test-time Delibration

作者: Haoran Zhang, Yafu Li, Xuyang Hu, Dongrui Liu, Zhilin Wang, Bo Li, Yu Cheng

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-18 | 👍 点赞数: 50

摘要:

论文标题：跨越边界进行推理：通过测试时审思增强规范对齐

中文摘要：
大语言模型（LLMs）正被 increasingly 应用于多种真实世界场景中，每个场景都由用户或组织定制的特定行为与安全规范（spec）所约束。这些规范可分为安全规范（safety-spec）和行为规范（behavioral-spec），在不同场景中各不相同，并随着偏好和需求的变化而动态演进。我们将这一挑战形式化为“规范对齐”问题，聚焦于大语言模型在行为与安全两个维度上遵循动态、场景特定规范的能力。为应对该挑战，我们提出了Align3——一种轻量级方法，采用测试时审思（Test-Time Deliberation, TTD），结合分层反思与修订机制，对规范边界进行推理。进一步地，我们构建了SpecBench，一个统一的规范对齐评测基准，涵盖5个场景、103项规范和1,500个提示语。在15个推理模型和18个指令微调模型上的实验，结合包括Self-Refine、TPO和MoreThink在内的多种TTD方法，得出三个关键发现：（i）测试时审思能够有效提升规范对齐能力；（ii）Align3以极低开销推动了安全性与有用性之间的权衡前沿；（iii）SpecBench能有效揭示当前模型在规范对齐方面的不足。这些结果凸显了测试时审思作为应对现实世界规范边界推理任务的一种高效策略的潜力。

4. Evolving Language Models without Labels: Majority Drives Selection,

Novelty Promotes Variation

作者: Yujun Zhou, Zhenwen Liang, Haolin Liu, Wenhao Yu, Kishan Panaganti, Linfeng Song, Dian Yu, Xiangliang Zhang, Haitao Mi, Dong Yu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-18 | 👍 点赞数: 32

摘要:

论文标题：无需标签的语言模型进化：多数决定选择，新颖性促进变异

中文摘要：
大型语言模型（LLMs）正越来越多地通过可验证奖励的强化学习（RLVR）进行训练。然而，在实际应用中，人们期望模型能够在没有标签或外部评判的情况下实现自我提升。现有的无标签方法——如置信度最小化、自洽性或多数投票目标——虽然能够稳定学习过程，但会逐渐抑制探索行为，导致熵崩溃现象：生成结果变得更短、多样性降低且脆弱。与以往诸如测试时强化学习（Test-Time Reinforcement Learning, TTRL）等主要针对当前无标签数据集进行适应的方法不同，我们的目标更为广泛：在不牺牲模型内在探索能力和泛化能力的前提下实现通用性能提升，即实现“进化”。我们对此问题进行了形式化建模，并提出了一种面向进化、无需标签的强化学习方法（EVOL-RL），该方法在无标签设定下将稳定性与变异性相结合。EVOL-RL 将多数投票答案保留为稳定的锚点（选择机制），同时引入一种感知新颖性的奖励机制，鼓励生成在推理路径上不同于已有输出的回答（变异机制），并通过语义空间中的表示来衡量差异。基于GRPO框架实现，EVOL-RL 还采用非对称裁剪以保留强信号，并使用熵正则项维持搜索活力。这种“多数用于选择 + 新颖性用于变异”的设计有效防止了多样性崩溃，保持了更长且更具信息量的思维链，显著提升了 pass@1 和 pass@n 指标。EVOL-RL 始终优于仅依赖多数投票的 TTRL 基线方法；例如，在无标签的 AIME24 数据集上训练后，Qwen3-4B-Base 模型在 AIME25 上的 pass@1 从 TTRL 的 4.6% 提升至 16.4%，pass@16 则从 18.5% 提高到 37.9%。EVOL-RL 不仅避免了多样性崩溃，还展现出跨领域（如 GPQA）更强的泛化能力。此外，我们还证明 EVOL-RL 在 RLVR 设定下同样能提升性能，进一步凸显其广泛的适用性。

5. WorldForge: Unlocking Emergent 3D/4D Generation in Video Diffusion Model

via Training-Free Guidance

作者: Chenxi Song, Yanming Yang, Tong Zhao, Ruibo Li, Chi Zhang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-18 | 👍 点赞数: 30

摘要:

论文标题：WorldForge：通过无需训练的引导机制解锁视频扩散模型中的涌现式3D/4D生成

中文摘要：
近年来，视频扩散模型因其丰富的潜在世界先验，在空间智能任务中展现出强大的潜力。然而，由于其可控性有限且几何一致性不足，导致这些先验知识在实际应用于3D/4D任务时存在显著差距。因此，现有方法通常依赖重新训练或微调，但这可能损害预训练获得的知识，并带来高昂的计算成本。为解决这一问题，我们提出了WorldForge——一种无需训练、在推理阶段即可使用的框架，由三个紧密耦合的模块组成。步内递归优化（Intra-Step Recursive Refinement） 在推理过程中引入递归优化机制，在每个去噪步骤内部多次优化网络预测，从而实现精确的轨迹注入；光流门控的潜在融合（Flow-Gated Latent Fusion） 利用光流相似性在潜在空间中解耦运动与外观信息，并选择性地将轨迹引导注入与运动相关的通道；双路径自校正引导（Dual-Path Self-Corrective Guidance） 通过比较有引导和无引导的去噪路径，自适应地纠正由噪声或结构信号错位引起的轨迹漂移。上述组件协同工作，在无需任何训练的前提下注入细粒度、与轨迹对齐的控制信号，实现了精确的运动控制与高真实感内容生成。大量跨多个基准的实验验证了本方法在视觉真实感、轨迹一致性和图像保真度方面的优越性能。本研究提出了一种全新的即插即用范式，用于可控视频合成，为利用生成模型先验进行空间智能任务提供了新的视角。

6. AToken: A Unified Tokenizer for Vision

作者: Jiasen Lu, Liangchen Song, Mingze Xu, Byeongjoo Ahn, Yanjun Wang, Chen Chen, Afshin Dehghan, Yinfei Yang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-17 | 👍 点赞数: 30

摘要:

论文标题：AToken：一种用于视觉的统一Tokenizer

中文摘要：
本文提出AToken，这是首个能够在图像、视频和3D资产上同时实现高保真重建与语义理解的统一视觉tokenizer。不同于现有仅针对单一模态、且专注于重建或理解任务的tokenizer，AToken将这些多样化的视觉输入编码到一个共享的四维（4D）潜在空间中，从而在一个统一框架下实现了任务与模态的双重融合。具体而言，我们设计了一种纯Transformer架构，并引入4D旋转位置嵌入，以处理任意分辨率和时间长度的视觉输入。为确保训练稳定性，我们提出了一种无需对抗训练的目标函数，结合感知损失和Gram矩阵损失，在重建质量方面达到了当前最优水平。通过采用渐进式训练策略，AToken逐步扩展至单张图像、视频和3D数据，支持连续型与离散型潜在token。实验结果显示，AToken在图像任务上达到0.21的rFID和82.2%的ImageNet分类准确率，在视频任务上实现3.01的rFVD和32.6%的MSRVTT检索准确率，在3D任务上取得28.19的PSNR和90.9%的分类准确率。在下游应用中，AToken同时支持视觉生成任务（如基于连续与离散token的图像生成、文本到视频生成、图像到3D合成）和理解任务（如多模态大语言模型），在各类基准测试中均表现出具有竞争力的性能。本研究为基于统一视觉token化的下一代多模态人工智能系统提供了重要启示。

7. FinSearchComp: Towards a Realistic, Expert-Level Evaluation of Financial

Search and Reasoning

作者: Liang Hu, Jianpeng Jiao, Jiashuo Liu, Yanle Ren, Zhoufutu Wen, Kaiyuan Zhang, Xuanliang Zhang, Xiang Gao, Tianci He, Fei Hu, Yali Liao, Zaiyuan Wang, Chenghao Yang, Qianyu Yang, Mingren Yin, Zhiyuan Zeng, Ge Zhang, Xinyi Zhang, Xiying Zhao, Zhenwei Zhu, Hongseok Namkoong, Wenhao Huang, Yuwen Tang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-16 | 👍 点赞数: 29

摘要:

论文标题：FinSearchComp：迈向真实、专家级别的金融搜索与推理能力评估

中文摘要：
搜索已成为基于大语言模型（LLM）智能体的核心基础设施，被广泛视为实现更通用智能的关键路径之一。金融领域尤其具有挑战性，是理想的验证场景：分析师通常需要在时效性强、专业性高的数据上进行复杂、多步骤的检索，这使其成为评估搜索能力与知识驱动推理的理想环境。然而，目前尚无公开的金融数据集能够对端到端智能体的数据搜索能力进行全面评测，主要原因在于构建真实且复杂的任务需要深厚的金融专业知识，而时效性数据也难以有效评估。为此，我们提出了FinSearchComp——首个完全开源的、面向真实开放领域金融搜索与推理能力的智能体评测基准。FinSearchComp包含三项任务：时效数据获取、简单历史查询和复杂历史调查，紧密复现了现实世界中金融分析师的工作流程。为确保任务难度与标注可靠性，我们邀请了70位专业金融专家参与标注，并建立了严格的多阶段质量控制流程。该基准涵盖635个问题，覆盖全球市场及大中华地区市场，我们在此基础上评测了21个模型（或产品）。实验结果显示，Grok 4（联网版）在全球子集上表现最佳，准确率接近专家水平；DouBao（联网版）在大中华地区子集中领先。进一步分析表明，在智能体中集成网络搜索与金融专用插件可显著提升FinSearchComp上的表现，且模型与工具的国别来源对性能有显著影响。通过贴近真实分析师任务并提供端到端的评估方式，FinSearchComp为复杂金融搜索与推理能力提供了一个专业化、高难度的测试平台。

8. Understand Before You Generate: Self-Guided Training for Autoregressive

Image Generation

作者: Xiaoyu Yue, Zidong Wang, Yuqing Wang, Wenlong Zhang, Xihui Liu, Wanli Ouyang, Lei Bai, Luping Zhou

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-18 | 👍 点赞数: 27

摘要:

论文标题：生成之前先理解：面向自回归图像生成的自指导训练

中文摘要：
近期研究表明，高质量的视觉表征在图像生成中具有重要作用，同时也揭示了生成模型在图像理解能力方面的局限性。作为最初为自然语言设计的一种生成范式，自回归模型在应用于视觉任务时也面临类似挑战。本文首次系统性地探究了将“下一个标记预测”（next-token prediction）范式应用于视觉领域的机制。我们识别出阻碍高层视觉语义学习的三个关键问题：局部性与条件依赖性、跨步长语义不一致性，以及空间不变性缺失。我们证明，通过在训练过程中引入自监督目标，可以有效缓解这些问题，从而提出一种新颖的训练框架——面向自回归模型的自指导训练（Self-guided Training for AutoRegressive models, ST-AR）。ST-AR 不依赖任何预训练的表征模型，显著提升了自回归模型的图像理解能力，并改善了生成质量。具体而言，在保持相同采样策略的前提下，ST-AR 使 LlamaGen-L 的 FID 指标提升了约 42%，LlamaGen-XL 的 FID 指标提升了约 49%。

9. RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation

作者: Yuming Jiang, Siteng Huang, Shengke Xue, Yaxi Zhao, Jun Cen, Sicong Leng, Kehan Li, Jiayan Guo, Kexiang Wang, Mingxiu Chen, Fan Wang, Deli Zhao, Xin Li

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-18 | 👍 点赞数: 20

摘要:

论文标题：RynnVLA-001：利用人类示范提升机器人操作能力

中文摘要：
本文提出了RynnVLA-001，一种基于大规模人类示范视频进行生成式预训练的视觉-语言-动作（Vision-Language-Action, VLA）模型。我们提出了一种新颖的两阶段预训练方法。第一阶段为“以自我为中心的视频生成式预训练”（Ego-Centric Video Generative Pretraining），在1200万条以自我为中心的操纵类视频数据上训练一个图像到视频（Image-to-Video）模型，使其能够根据初始帧和语言指令预测未来的视频帧。第二阶段为“以人为中心的轨迹感知建模”（Human-Centric Trajectory-Aware Modeling），在此基础上进一步联合预测未来关键点的运动轨迹，从而有效连接视觉帧预测与动作预测。此外，为了增强动作表征能力，我们提出了ActionVAE——一种变分自编码器，可将动作序列压缩为紧凑的潜在嵌入表示，降低VLA模型输出空间的复杂性。在相同的下游机器人数据集上进行微调后，RynnVLA-001相较于当前最先进的基线模型表现出更优的性能，验证了所提出的预训练策略能为VLA模型提供更有效的初始化。

10. MultiEdit: Advancing Instruction-based Image Editing on Diverse and

Challenging Tasks

作者: Mingsong Li, Lin Liu, Hongjun Wang, Haoxing Chen, Xijun Gu, Shizhan Liu, Dong Gong, Junbo Zhao, Zhenzhong Lan, Jianguo Li

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-18 | 👍 点赞数: 11

摘要:

论文标题：MultiEdit：推动基于指令的图像编辑在多样化与挑战性任务上的发展

中文摘要：
当前基于指令的图像编辑（IBIE）方法在应对复杂编辑任务时面临困难，主要原因在于现有数据集的编辑类型有限且样本数量不足。此外，传统的数据集构建方式常包含噪声较大的图像-文本对，这可能引入偏差，并限制模型在复杂编辑场景中的能力。为解决这些问题，我们提出了MultiEdit，一个包含超过10.7万高质量图像编辑样本的综合性数据集。该数据集涵盖了6种具有挑战性的编辑任务，包含18种非风格迁移类编辑类型和38种风格迁移操作，范围从复杂的风格迁移，到诸如人物指代编辑和图像内文本编辑等复杂的语义操作。我们采用一种新颖的数据集构建流程，利用两个多模态大语言模型（MLLMs），分别生成视觉自适应的编辑指令和高保真的编辑后图像。大量实验表明，使用我们的MultiEdit-Train子集对基础开源模型进行微调，能显著提升模型在所提出的MultiEdit-Test基准上处理复杂编辑任务的性能，同时有效保持其在标准编辑基准上的原有能力。我们认为，MultiEdit为推进更加多样化和更具挑战性的IBIE研究提供了宝贵的资源。本数据集已公开发布于 https://huggingface.co/datasets/inclusionAI/MultiEdit。

11. Apertus: Democratizing Open and Compliant LLMs for Global Language

Environments

作者: Alejandro Hernández-Cano, Alexander Hägele, Allen Hao Huang, Angelika Romanou, Antoni-Joan Solergibert, Barna Pasztor, Bettina Messmer, Dhia Garbaya, Eduard Frank Ďurech, Ido Hakimi, Juan García Giraldo, Mete Ismayilzada, Negar Foroutan, Skander Moalla, Tiancheng Chen, Vinko Sabolčec, Yixuan Xu, Michael Aerni, Badr AlKhamissi, Ines Altemir Marinas, Mohammad Hossein Amani, Matin Ansaripour, Ilia Badanin, Harold Benoit, Emanuela Boros, Nicholas Browning, Fabian Bösch, Maximilian Böther, Niklas Canova, Camille Challier, Clement Charmillot, Jonathan Coles, Jan Deriu, Arnout Devos, Lukas Drescher, Daniil Dzenhaliou, Maud Ehrmann, Dongyang Fan, Simin Fan, Silin Gao, Miguel Gila, María Grandury, Diba Hashemi, Alexander Hoyle, Jiaming Jiang, Mark Klein, Andrei Kucharavy, Anastasiia Kucherenko, Frederike Lübeck, Roman Machacek, Theofilos Manitaras, Andreas Marfurt, Kyle Matoba, Simon Matrenok, Henrique Mendoncça, Fawzi Roberto Mohamed, Syrielle Montariol, Luca Mouchel, Sven Najem-Meyer, Jingwei Ni, Gennaro Oliva, Matteo Pagliardini, Elia Palme, Andrei Panferov, Léo Paoletti, Marco Passerini, Ivan Pavlov, Auguste Poiroux, Kaustubh Ponkshe, Nathan Ranchin, Javi Rando, Mathieu Sauser, Jakhongir Saydaliev, Muhammad Ali Sayfiddinov, Marian Schneider, Stefano Schuppli, Marco Scialanga, Andrei Semenov, Kumar Shridhar, Raghav Singhal, Anna Sotnikova, Alexander Sternfeld, Ayush Kumar Tarun, Paul Teiletche, Jannis Vamvas, Xiaozhe Yao, Hao Zhao Alexander Ilic, Ana Klimovic, Andreas Krause, Caglar Gulcehre, David Rosenthal, Elliott Ash, Florian Tramèr, Joost VandeVondele, Livio Veraldi, Martin Rajman, Thomas Schulthess, Torsten Hoefler, Antoine Bosselut, Martin Jaggi, Imanol Schlag

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-17 | 👍 点赞数: 9

摘要:

论文标题：Apertus：面向全球语言环境的开放且合规的大语言模型民主化

中文摘要：
本文提出 Apertus，一个完全开源的大语言模型（LLM）系列，旨在解决当前开源模型生态中的两大系统性缺陷：数据合规性与多语言代表性。与许多仅发布模型权重却缺乏可复现数据流程、忽视内容所有者权利的先前模型不同，Apertus 模型的预训练仅使用公开可用的数据，并回溯性地遵守 robots.txt 排除规则，同时过滤非许可性、有害以及包含个人身份信息的内容。为降低记忆化风险，我们在预训练中采用 Goldfish 目标函数，在显著抑制对训练数据逐字复现的同时，保持下游任务的良好性能。Apertus 模型还扩展了多语言覆盖能力，基于来自超过 1800 种语言的约 15 万亿 token 进行训练，其中约 40% 的预训练数据为非英语内容。该模型以 80 亿和 700 亿参数两个规模发布，在多语言基准测试中，其性能在完全开源模型中接近最先进水平，媲美甚至超越其他开源权重模型。除了模型权重外，我们还以宽松许可协议公开了整个研发周期中的全部科学成果，包括数据处理脚本、检查点、评测套件和训练代码，从而实现透明审查与进一步扩展。

12. Agentic Software Engineering: Foundational Pillars and a Research

Roadmap

作者: Ahmed E. Hassan, Hao Li, Dayi Lin, Bram Adams, Tse-Hsun Chen, Yutaro Kashiwa, Dong Qiu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-07 | 👍 点赞数: 7

摘要:

论文标题：自主型软件工程：基础支柱与研究路线图

中文摘要：
自主型软件工程（SE 3.0）标志着一个新时代的到来，在这一时代中，智能代理（agents）所承担的任务不再局限于简单的代码生成，而是致力于实现复杂且以目标为导向的软件工程（SE）任务。为了在充分发挥这些新能力的同时确保系统的可信性，我们必须认识到在自主型软件工程时代，软件工程领域内部存在一种根本性的二元结构，即“面向人类的软件工程”（SE for Humans）与“面向代理的软件工程”（SE for Agents），二者相互依存、协同发展。这种二元性要求我们对软件工程的四大基础支柱——参与者（actors）、流程（processes）、工具（tools）和制品（artifacts）——进行根本性的重构，使其在两种模式下呈现出不同的形态。

为此，我们提出了两个专用的工作平台来支撑这一愿景。代理指挥环境（Agent Command Environment, ACE）作为指挥中心，供人类用户协调并指导代理团队的工作，处理诸如“合并就绪包”（Merge-Readiness Packs, MRPs）和“咨询请求包”（Consultation Request Packs, CRPs）等输出成果。代理执行环境（Agent Execution Environment, AEE）则是一个数字工作空间，代理在此执行任务，并在遭遇歧义或复杂权衡时主动调用人类专家的介入。这种双向协作机制支持由代理发起的人类回调（human-in-the-loop callbacks）与任务移交（handovers），催生出一系列新型的、结构化的工程活动（即过程），从而重新定义人机协同范式，将实践从“代理辅助编程”提升至真正意义上的“自主型软件工程”。

本文提出了结构化自主型软件工程（Structured Agentic Software Engineering, SASE）的总体愿景，阐述了未来软件工程发展的若干基础支柱，并最终提出了一项研究路线图，识别出若干关键挑战与机遇，同时简要探讨了这一发展趋势对软件工程教育带来的深远影响。我们的目标并非提供一个终极解决方案，而是构建一个具备结构化术语的概念框架，以激发整个社区的广泛讨论，推动软件工程领域超越传统以人类为中心的基本假设，迈向一个更加规范、可扩展且值得信赖的自主型未来。

13. RecoWorld: Building Simulated Environments for Agentic Recommender

Systems

作者: Fei Liu, Xinyu Lin, Hanchao Yu, Mingyuan Wu, Jianyu Wang, Qiang Zhang, Zhuokai Zhao, Yinglong Xia, Yao Zhang, Weiwei Li, Mingze Gao, Qifan Wang, Lizhu Zhang, Benyu Zhang, Xiangjun Fan

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-12 | 👍 点赞数: 6

摘要:

论文标题：RecoWorld：面向智能体推荐系统的模拟环境构建

中文摘要：
本文提出RecoWorld，一种专为智能体推荐系统（agentic recommender systems）设计的模拟环境构建蓝图。此类环境为智能体提供了适当的训练空间，使其能够在不影响真实用户的情况下从错误中学习。RecoWorld的核心特色在于其双视角架构：一个模拟用户与一个具备自主决策能力的推荐智能体进行多轮交互，目标是最大化用户留存。用户模拟器对推荐内容进行评估，动态更新其心理状态，并在察觉到潜在用户流失风险时，生成具有反思性的指令。推荐智能体则通过融合这些来自用户的指令及其推理轨迹来调整推荐策略，从而形成一个能够主动吸引用户参与的动态反馈闭环。该机制充分利用了现代大语言模型（LLMs）强大的推理能力。我们在模拟器中探索了多种内容表征方式，包括基于文本的、多模态的以及语义ID建模方法，并探讨了多轮强化学习如何使推荐系统通过迭代交互不断优化其策略。此外，RecoWorld支持多智能体模拟，使研究者能够仿真特定用户群体的行为响应。该框架标志着迈向“用户与智能体协同塑造个性化信息流”的推荐系统的重要第一步。我们展望未来将出现“用户发出指令，推荐系统响应执行”的新型交互范式，共同优化用户留存与参与度。

14. Can Multimodal LLMs See Materials Clearly? A Multimodal Benchmark on

Materials Characterization

作者: Zhengzhao Lai, Youbin Zheng, Zhenyang Cai, Haonan Lyu, Jinpu Yang, Hongqing Liang, Yan Hu, Benyou Wang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-11 | 👍 点赞数: 6

摘要:

论文标题：多模态大语言模型能清晰“看见”材料吗？面向材料表征的多模态基准评测

中文摘要：
材料表征是获取材料信息的基础，有助于揭示工艺-微观结构-性能之间的关系，从而指导材料的设计与优化。尽管近年来多模态大语言模型（MLLMs）在材料科学的生成与预测任务中展现出潜力，但其对真实世界表征图像数据的理解能力仍缺乏系统探索。为填补这一空白，我们提出了MatCha——首个面向材料表征图像理解的基准评测集，包含1,500个需要专家级领域知识才能回答的问题。MatCha涵盖材料研究的四个关键阶段，共21项不同任务，每一项均旨在反映材料科学家在实际研究中面临的真实挑战。我们在MatCha上对当前最先进的多模态大语言模型进行了评估，结果表明其性能与人类专家相比仍存在显著差距。特别是在需要更高层次专业知识和复杂视觉感知的问题上，模型表现明显下降。简单的少样本提示（few-shot prompting）和思维链提示（chain-of-thought prompting）难以有效缓解这些局限性。这些发现表明，现有的多模态大语言模型在应对真实材料表征场景时仍具有较大的适应性不足。我们希望MatCha能够推动新材料发现、自主科学智能体等相关领域的未来研究。MatCha数据集已公开发布于 https://github.com/FreedomIntelligence/MatCha。

15. Unleashing the Potential of Multimodal LLMs for Zero-Shot

Spatio-Temporal Video Grounding

作者: Zaiquan Yang, Yuhao Liu, Gerhard Hancke, Rynson W. H. Lau

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-18 | 👍 点赞数: 5

摘要:

论文标题：释放多模态大语言模型在零样本时空视频定位中的潜力

中文摘要：
时空视频定位（Spatio-temporal video grounding, STVG）旨在根据输入的文本查询，定位视频中对应的时空轨迹管（spatio-temporal tube）。本文利用多模态大语言模型（Multimodal Large Language Models, MLLMs）探索STVG任务中的零样本解决方案。我们揭示了关于MLLMs的两个关键洞察：（1）MLLMs倾向于动态分配特殊的标记（tokens），即“定位标记”（grounding tokens），用于对齐文本查询；（2）由于在推理过程中无法充分整合文本查询中的线索（如属性、动作等），MLLMs常出现定位效果欠佳的问题。基于上述发现，我们提出一种基于MLLM的零样本STVG框架，引入了新颖的解耦式时空高亮策略（Decomposed Spatio-Temporal Highlighting, DSTH）和时序增强聚合策略（Temporal-Augmented Assembling, TAS），以充分释放MLLM的推理能力。DSTH策略首先将原始查询分解为属性和动作两个子查询，分别用于在空间和时间维度上判断目标的存在性；随后，通过一种新颖的对数概率引导重注意力模块（Logit-guided Re-attention, LRA），学习隐变量作为空间与时间提示（prompts），并通过正则化各子查询的token预测过程来优化这些提示。这些提示分别突出属性与动作线索，引导模型关注可靠的、与空间和时间相关的视觉区域。此外，考虑到由属性子查询得到的空间定位应具备时间一致性，我们进一步提出TAS策略，通过将原始视频帧与时序增强帧共同作为输入，聚合多个时间点的预测结果，从而提升定位的时间连贯性。我们在多种MLLM上评估了所提方法，并在三个主流的STVG基准测试上超越了当前最先进的方法。代码地址：https://github.com/zaiquanyang/LLaVA_Next_STVG。

16. Mind the Gap: A Closer Look at Tokenization for Multiple-Choice Question

Answering with LLMs

作者: Mario Sanz-Guerrero, Minh Duc Bui, Katharina von der Wense

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-18 | 👍 点赞数: 4

摘要:

论文标题：注意差距：深入探究大语言模型在多选题问答中的分词问题

中文摘要：
在使用多选题问答（MCQA）评估大语言模型（LLMs）时，通常会在提示末尾添加字符串“Answer:”，以便通过下一个词元（token）的概率实现自动答案提取。然而，对于冒号后空格的分词方式尚无统一标准，这一选择常被视为无关紧要而被忽视。本文揭示了这种看似无关紧要的分词差异可能导致高达11%的准确率差异，并引发模型排名顺序的变化，从而对以往研究中LLM比较结果的可靠性提出了质疑。令人意外的是，我们发现将空格与答案字母一同分词的策略表现一致且具有统计显著性的性能提升，因此推荐采用该方法。此外，该策略还能改善模型的校准性，增强模型置信度估计的可靠性。本研究强调了细致评估设计的重要性，并呼吁建立标准化、透明化的评估协议，以确保评估结果的可靠性和可比性。

17. Developer-LLM Conversations: An Empirical Study of Interactions and

Generated Code Quality

作者: Suzhen Zhong, Ying Zou, Bram Adams

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-12 | 👍 点赞数: 4

摘要:

论文标题：开发者与大语言模型的对话：交互模式与生成代码质量的实证研究

摘要：
大语言模型（Large Language Models, LLMs）正日益融入现代软件开发流程，通过自然语言对话的方式协助开发者完成代码生成、API 解释以及迭代式问题求解。尽管LLM已被广泛采用，但目前对开发者在实际中如何与LLM交互、这些对话动态如何影响任务结果、代码质量以及软件工程流程，仍缺乏深入理解。为解决这一问题，我们利用 CodeChat 数据集——一个源自 WildChat 的大规模真实世界开发者-LLM 对话数据集，包含 82,845 次对话，涵盖超过 20 种编程语言生成的 368,506 个代码片段——开展研究。我们发现，LLM 的回复显著长于开发者的提问，中位数级别的 token 长度比达到 14:1。多轮对话占数据集的 68%，其演变通常源于需求变化、提示不完整或澄清请求。主题分析表明，网页设计（占对话的 9.6%）和神经网络训练（8.7%）是LLM最常辅助的任务类型。在五种主流编程语言（Python、JavaScript、C++、Java 和 C#）上的评估揭示了LLM生成代码中存在的普遍且具语言特异性的缺陷：生成的 Python 和 JavaScript 代码中频繁出现未定义变量（分别占代码片段的 83.4% 和 75.3%）；Java 代码普遍缺少必要的注释（75.9%）；C++ 代码常遗漏头文件（41.1%）；C# 代码则存在命名空间未解析的问题（49.2%）。在多轮对话过程中，语法错误和导入错误往往持续存在；然而，Java 的文档质量在五轮内最多提升了 14.7%，Python 的导入处理准确率也提升了 3.7%。我们发现，明确指出前轮生成代码中的错误并要求修复的提示语，是纠正错误最有效的方式。

18. EchoVLM: Dynamic Mixture-of-Experts Vision-Language Model for Universal

Ultrasound Intelligence

作者: Chaoyin She, Ruifang Lu, Lida Chen, Wei Wang, Qinghua Huang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-18 | 👍 点赞数: 3

摘要:

论文标题：EchoVLM：面向通用超声智能的动态混合专家视觉-语言模型

中文摘要：
由于具有无电离辐射、成本低和实时成像等优势，超声成像已成为早期癌症筛查的首选影像学手段。然而，传统的超声诊断高度依赖医生的专业经验，存在主观性强、诊断效率低等问题。视觉-语言模型（Vision-Language Models, VLMs）为此提供了潜在的解决方案，但现有的通用模型在超声医学任务中知识有限，在多器官病灶识别方面泛化能力差，且在多任务诊断中效率较低。为克服这些局限性，本文提出了EchoVLM——一种专为超声医学影像设计的视觉-语言模型。该模型采用混合专家（Mixture of Experts, MoE）架构，并在涵盖七个解剖区域的数据上进行训练，能够同时执行多项任务，包括超声报告生成、诊断分类以及视觉问答（VQA）。实验结果表明，在超声报告生成任务中，与Qwen2-VL相比，EchoVLM在BLEU-1指标上提升了10.15分，在ROUGE-1指标上提升了4.77分，表现出显著性能优势。上述结果表明，EchoVLM在提升超声诊断准确性方面具有巨大潜力，可为未来临床应用提供可行的技术路径。源代码和模型权重已公开发布于 https://github.com/Asunatan/EchoVLM。

19. EdiVal-Agent: An Object-Centric Framework for Automated, Scalable,

Fine-Grained Evaluation of Multi-Turn Editing

作者: Tianyu Chen, Yasi Zhang, Zhi Zhang, Peiyu Yu, Shu Wang, Zhendong Wang, Kevin Lin, Xiaofei Wang, Zhengyuan Yang, Linjie Li, Chung-Ching Lin, Jianwen Xie, Oscar Leong, Lijuan Wang, Ying Nian Wu, Mingyuan Zhou

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-16 | 👍 点赞数: 3

摘要:

论文标题：EdiVal-Agent：一种面向自动化、可扩展、细粒度多轮图像编辑评估的以对象为中心的框架

中文摘要：
基于指令的图像编辑技术近年来发展迅速，但其可靠且可解释的评估方法仍是一个瓶颈。现有的评估方法要么（i）依赖成对的参考图像——导致覆盖范围有限，并继承了先前生成模型中的偏差；要么（ii）完全依赖零样本视觉-语言模型（VLMs），而这类模型通过提示词对指令遵循性、内容一致性和视觉质量的评估往往不够精确。

为解决这一问题，我们提出了 EdiVal-Agent，一种从对象中心视角出发的自动化、可扩展且细粒度的多轮指令驱动图像编辑评估框架，该框架由一系列专家工具支持。给定一张输入图像后，EdiVal-Agent 首先将其分解为具有语义意义的对象，随后生成多样化且上下文感知的编辑指令。在评估阶段，该框架将视觉-语言模型（VLMs）与开放词汇目标检测器相结合，用于评估指令遵循能力；利用语义级特征提取器评估内容一致性；并通过人类偏好模型判断视觉质量。我们验证了，在指令遵循性评估中，将 VLM 与目标检测器结合的方法相比仅使用 VLM 或基于 CLIP 的指标，能更好地与人类判断保持一致。此外，该框架采用模块化设计，便于未来集成新的评估工具，从而持续提升评估精度。

基于该框架，我们构建了 EdiVal-Bench，一个涵盖9种指令类型和11种前沿图像编辑模型的多轮编辑基准，涉及自回归（AR）（包括 Nano Banana、GPT-Image-1）、流匹配（flow-matching）以及扩散模型等多种范式。实验表明，EdiVal-Agent 能有效识别现有模型的失败模式，为下一代图像编辑模型的研发提供指导。项目主页：https://tianyucodings.github.io/EdiVAL-page/。

20. FSG-Net: Frequency-Spatial Synergistic Gated Network for High-Resolution

Remote Sensing Change Detection

作者: Zhongxiang Xie, Shuangxi Miao, Yuhan Jiang, Zhewei Zhang, Jing Yao, Xuecao Li, Jianxi Huang, Pedram Ghamisi

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-08

摘要:

论文标题：FSG-Net：用于高分辨率遥感影像变化检测的频率-空间协同门控网络

中文摘要：
高分辨率遥感影像的变化检测是地球观测应用中的关键基础，但其性能常受到两个关键挑战的制约。首先，由于模型容易将时间差异引起的辐射变化（如光照、季节变化）误判为真实变化，导致虚警频发。其次，深层抽象特征与浅层细节丰富特征之间存在不可忽视的语义鸿沟，阻碍了它们的有效融合，导致变化边界的刻画模糊不清。为更进一步解决上述问题，本文提出频率-空间协同门控网络（FSG-Net），这是一种旨在系统性分离真实语义变化与干扰因素的新范式。具体而言，FSG-Net 首先在频域进行操作，通过设计的差异感知小波交互模块（Discrepancy-Aware Wavelet Interaction Module, DAWIM），自适应地抑制伪变化，选择性地处理不同频率成分。随后，在空间域中引入协同时-空注意力模块（Synergistic Temporal-Spatial Attention Module, STSAM），增强真实变化区域的显著性。最后，为了弥合语义鸿沟，轻量级门控融合单元（Lightweight Gated Fusion Unit, LGFU）利用高层语义信息，选择性地门控并融合来自浅层的关键细节信息。在 CDD、GZ-CD 和 LEVIR-CD 三个基准数据集上的大量实验验证了 FSG-Net 的优越性能，分别取得了 94.16%、89.51% 和 91.27% 的 F1 分数，达到了新的最先进水平。代码将在论文可能发表后公开于 https://github.com/zxXie-Air/FSG-Net。

每日论文 - 2025年09月20日

1. ScaleCUA: Scaling Open-Source Computer Use Agents with Cross-Platform Data​

2. FlowRL: Matching Reward Distributions for LLM Reasoning​

3. Reasoning over Boundaries: Enhancing Specification Alignment via​

4. Evolving Language Models without Labels: Majority Drives Selection,​

5. WorldForge: Unlocking Emergent 3D/4D Generation in Video Diffusion Model​

6. AToken: A Unified Tokenizer for Vision​

7. FinSearchComp: Towards a Realistic, Expert-Level Evaluation of Financial​

8. Understand Before You Generate: Self-Guided Training for Autoregressive​

9. RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation​

10. MultiEdit: Advancing Instruction-based Image Editing on Diverse and​

11. Apertus: Democratizing Open and Compliant LLMs for Global Language​

12. Agentic Software Engineering: Foundational Pillars and a Research​

13. RecoWorld: Building Simulated Environments for Agentic Recommender​

14. Can Multimodal LLMs See Materials Clearly? A Multimodal Benchmark on​

15. Unleashing the Potential of Multimodal LLMs for Zero-Shot​

16. Mind the Gap: A Closer Look at Tokenization for Multiple-Choice Question​

17. Developer-LLM Conversations: An Empirical Study of Interactions and​

18. EchoVLM: Dynamic Mixture-of-Experts Vision-Language Model for Universal​

19. EdiVal-Agent: An Object-Centric Framework for Automated, Scalable,​

20. FSG-Net: Frequency-Spatial Synergistic Gated Network for High-Resolution​

1. ScaleCUA: Scaling Open-Source Computer Use Agents with Cross-Platform Data

2. FlowRL: Matching Reward Distributions for LLM Reasoning

3. Reasoning over Boundaries: Enhancing Specification Alignment via

4. Evolving Language Models without Labels: Majority Drives Selection,

5. WorldForge: Unlocking Emergent 3D/4D Generation in Video Diffusion Model

6. AToken: A Unified Tokenizer for Vision

7. FinSearchComp: Towards a Realistic, Expert-Level Evaluation of Financial

8. Understand Before You Generate: Self-Guided Training for Autoregressive

9. RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation

10. MultiEdit: Advancing Instruction-based Image Editing on Diverse and

11. Apertus: Democratizing Open and Compliant LLMs for Global Language

12. Agentic Software Engineering: Foundational Pillars and a Research

13. RecoWorld: Building Simulated Environments for Agentic Recommender

14. Can Multimodal LLMs See Materials Clearly? A Multimodal Benchmark on

15. Unleashing the Potential of Multimodal LLMs for Zero-Shot

16. Mind the Gap: A Closer Look at Tokenization for Multiple-Choice Question

17. Developer-LLM Conversations: An Empirical Study of Interactions and

18. EchoVLM: Dynamic Mixture-of-Experts Vision-Language Model for Universal

19. EdiVal-Agent: An Object-Centric Framework for Automated, Scalable,

20. FSG-Net: Frequency-Spatial Synergistic Gated Network for High-Resolution