每日论文 - 2025年09月19日
论文总数: 20
1. ScaleCUA: Scaling Open-Source Computer Use Agents with Cross-Platform Data
作者: Zhaoyang Liu, JingJing Xie, Zichen Ding, Zehao Li, Bowen Yang, Zhenyu Wu, Xuehui Wang, Qiushi Sun, Shi Liu, Weiyun Wang, Shenglong Ye, Qingyun Li, Zeyue Tian, Gen Luo, Xiangyu Yue, Biqing Qi, Kai Chen, Bowen Zhou, Yu Qiao, Qifeng Chen, Wenhai Wang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-18 | 👍 点赞数: 92
摘要:
论文标题:ScaleCUA:通过跨平台数据扩展开源计算机使用代理
中文摘要:
视觉-语言模型(Vision-Language Models, VLMs)使得能够自主操作图形用户界面(GUI)的计算机使用代理(Computer Use Agents, CUAs)成为可能,展现出巨大潜力。然而,由于缺乏大规模、开源的计算机使用数据和基础模型,该领域的发展受到限制。在本研究中,我们提出了ScaleCUA,旨在推动开源CUA系统的规模化发展。我们构建了一个覆盖6种操作系统和3个任务领域的大型数据集,该数据集通过一个结合自动化代理与人类专家的闭环流水线生成。基于这一大规模数据训练出的ScaleCUA能够在不同平台之间无缝操作。具体而言,该模型在多个基准上显著优于基线方法(在WebArena-Lite-v2上提升+26.6,在ScreenSpot-Pro上提升+10.7),并在多个权威测试集上创下新的最先进性能记录(MMBench-GUI L1-Hard达到94.4%,OSWorld-G达到60.6%,WebArena-Lite-v2达到47.4%)。这些结果凸显了数据驱动规模化对于通用型计算机使用代理的重要作用。我们将公开发布数据、模型和代码,以促进后续研究:https://github.com/OpenGVLab/ScaleCUA。
2. FlowRL: Matching Reward Distributions for LLM Reasoning
作者: Xuekai Zhu, Daixuan Cheng, Dinghuai Zhang, Hengli Li, Kaiyan Zhang, Che Jiang, Youbang Sun, Ermo Hua, Yuxin Zuo, Xingtai Lv, Qizheng Zhang, Lin Chen, Fanghao Shao, Bo Xue, Yunchong Song, Zhenjie Yang, Ganqu Cui, Ning Ding, Jianfeng Gao, Xiaodong Liu, Bowen Zhou, Hongyuan Mei, Zhouhan Lin
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-18 | 👍 点赞数: 83
摘要:
论文标题:FlowRL:通过匹配奖励分布实现大语言模型推理
中文摘要:
我们提出了FlowRL:一种通过流平衡(flow balancing)来匹配完整奖励分布的方法,而非在大语言模型(LLM)的强化学习(RL)中单纯最大化奖励。近期先进的推理模型普遍采用奖励最大化方法(例如PPO和GRPO),这类方法容易过度优化主导性奖励信号,而忽视那些出现频率较低但合理的推理路径,从而导致生成结果的多样性下降。相比之下,我们引入可学习的配分函数,将标量奖励转化为归一化的目标分布,并最小化策略分布与该目标分布之间的逆KL散度。我们将这一思想实现为一种流平衡优化方法,有效促进多样化的探索以及具有泛化能力的推理轨迹。我们在数学推理和代码推理任务上进行了实验验证:在数学基准测试中,FlowRL相比GRPO 平均提升了10.0%,相比PPO提升了5.1%;在代码推理任务上也 consistently 表现出更优性能。实验结果表明,奖励分布匹配是实现高效探索与多样化推理的关键步骤,对大语言模型强化学习的发展具有重要意义。
3. Reasoning over Boundaries: Enhancing Specification Alignment via
Test-time Delibration
作者: Haoran Zhang, Yafu Li, Xuyang Hu, Dongrui Liu, Zhilin Wang, Bo Li, Yu Cheng
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-18 | 👍 点赞数: 47
摘要:
论文标题:跨越边界进行推理:通过测试时推理增强规范对齐
中文摘要:
大语言模型(LLMs)正被 increasingly 应用于多种现实场景中,每个场景都由用户或组织定制的行为与安全规范(spec)所约束。这些规范可分为安全规范(safety-spec)和行为规范(behavioral-spec),在不同场景中各不相同,并随偏好和需求的变化而动态演进。我们将这一挑战形式化为“规范对齐”问题,聚焦于大语言模型在行为与安全两个维度上遵循动态、特定场景规范的能力。为应对该挑战,我们提出了Align3——一种轻量级方法,采用测试时推理(Test-Time Deliberation, TTD),结 合分层反思与修订机制,对规范边界进行深入推理。同时,我们构建了SpecBench,一个统一的规范对齐评测基准,涵盖5个场景、103项规范和1,500个提示语。在15个推理模型和18个指令微调模型上的实验,结合包括Self-Refine、TPO和MoreThink在内的多种TTD方法,得出三项关键发现:(i)测试时推理能够有效提升规范对齐能力;(ii)Align3以极低开销推动了安全性与有用性之间的权衡前沿;(iii)SpecBench能有效揭示当前模型在规范对齐方面的不足。这些结果凸显了测试时推理作为应对现实世界规范边界推理任务的一种高效策略的潜力。
4. Evolving Language Models without Labels: Majority Drives Selection,
Novelty Promotes Variation
作者: Yujun Zhou, Zhenwen Liang, Haolin Liu, Wenhao Yu, Kishan Panaganti, Linfeng Song, Dian Yu, Xiangliang Zhang, Haitao Mi, Dong Yu
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-18 | 👍 点赞数: 29
摘要:
论文标题:无需标签的语言模型进化:多数决定选择,新颖性促进变异
中文摘要:
大型语言模型(LLMs)正越来越多地通过可验证奖励的强化学习(RLVR)进行训练。然而,在实际应用中,人们期望模型能够在没有标签或外部评判的情况下实现自我提升。现有的无标签方法——如置信度最小化、自一致性或多數投票目标——虽然能够稳定学习过程,但会持续抑制探索行为,导致熵崩溃现象:生成结果变得更短、多样性降低,且鲁棒性变差。与以往诸如测试时强化学习(Test-Time Reinforcement Learning, TTRL)等主要针对当前无标签数据集进行适应性调整的方法不同,我们的目标更为广泛:在不牺牲模型内在探索能力和泛化性能的前提下实现通用性的持续改进,即“进化”。我们对此问题进行了形式化建模,并提出了一种面向进化的无标签强化学习框架(EVOL-RL),该方法在无标签环境下将稳定性与变异性有机结合。EVOL-RL以多数投票答案作为稳定的锚点(选择机制),同时引入一种基于语义空间的新颖性感知奖励机制,鼓励产生不同于已有推理路径的回答(变异机制)。该方法基于GRPO实现,并采用非对称裁剪策略保留强反馈信号,辅以熵正则项维持搜索能力。这种“多数用于选择 + 新颖性用于变异”的设计有效防止了多样性崩溃,保持了更长且更具信息量的思维链,显著提升了 pass@1 和 pass@n 指标。实验表明,EVOL-RL 始终优于仅依赖多数投票的 TTRL 基线方法;例如,在无标签的 AIME24 数据集上训练后,Qwen3-4B-Base 模型在 AIME25 上的 pass@1 从 TTRL 的 4.6% 提升至 16.4%,pass@16 则从 18.5% 提高到 37.9%。EVOL-RL 不仅避免了多样性退化,还在跨领域任务(如 GPQA)中展现出更强的泛化能力。此外,我们还证明 EVOL-RL 在 RLVR 设定下同样能提升性能,进一步凸显其广泛的适用性。
5. Understand Before You Generate: Self-Guided Training for Autoregressive
Image Generation
作者: Xiaoyu Yue, Zidong Wang, Yuqing Wang, Wenlong Zhang, Xihui Liu, Wanli Ouyang, Lei Bai, Luping Zhou
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-18 | 👍 点赞数: 26
摘要:
论文标题:生成之前先理解:自指导训练的自回归图像生成方法
中文摘要:
近期研究表明,高质量的视觉表征在图像生成中具有重要作用,同时也揭示了生成模型在图像理解能力上的局限性。作为最初为自然语言设计的一种生成范式,自回归模型在应用于视觉任务时也面临类似的挑战。本文首次系统性地探讨了将“下一个标记预测”(next-token prediction)范式应用于视觉领域的机制问题。我们识别出阻碍高层视觉语义学习的三个关键因素:局部性和条件依赖性、跨步长的语义不一致性,以及空间不变性缺失。我们证明,通过在训练过程中引入自监督目标,可以有效缓解这些问题,从而提出一种新颖的训练框架——自回归模型的自指导训练(Self-guided Training for AutoRegressive models, ST-AR)。该方法无需依赖预训 练的表征模型,显著提升了自回归模型的图像理解能力,并改善了生成质量。具体而言,在保持相同采样策略的前提下,ST-AR使LlamaGen-L的FID指标提升了约42%,LlamaGen-XL的FID指标提升了约49%。
6. FinSearchComp: Towards a Realistic, Expert-Level Evaluation of Financial
Search and Reasoning
作者: Liang Hu, Jianpeng Jiao, Jiashuo Liu, Yanle Ren, Zhoufutu Wen, Kaiyuan Zhang, Xuanliang Zhang, Xiang Gao, Tianci He, Fei Hu, Yali Liao, Zaiyuan Wang, Chenghao Yang, Qianyu Yang, Mingren Yin, Zhiyuan Zeng, Ge Zhang, Xinyi Zhang, Xiying Zhao, Zhenwei Zhu, Hongseok Namkoong, Wenhao Huang, Yuwen Tang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-16 | 👍 点赞数: 24
摘要:
论文标题:FinSearchComp:迈向真实、专家级的金融搜索与推理能力评估
摘要:
搜索已成为基于大语言模型(LLM)智能体的核心基础设施,被广泛视为实现更通用智能的关键路径之一。金融领域尤其具有挑战性,是理想的验证场景:分析师通常需要在时效性强、专业性高的数据上进行复杂、多步骤的搜索,这使其成为评估搜索能力与知识驱动推理的理想领域。然而,目 前尚无公开的金融数据集能够对端到端智能体的数据搜索能力进行全面评测,主要原因在于构建真实且复杂的任务需要深厚的金融专业知识,而时效性数据也难以有效评估。
本文提出 FinSearchComp——首个完全开源的、面向真实开放域金融搜索与推理的智能体评测基准。FinSearchComp 包含三项任务:时效数据获取、简单历史查询和复杂历史调查,紧密复现了现实世界中金融分析师的工作流程。为确保任务难度与标注可靠性,我们邀请了70位专业金融专家参与标注,并建立了严格的多阶段质量保障流程。该基准共包含635个问题,覆盖全球市场及大中华区市场,我们在该基准上评测了21个模型(或产品)。实验结果显示,Grok 4(网页版)在全局子集上表现最佳,准确率接近专家水平;DouBao(网页版)在大中华区子集中领先。进一步分析表明,为智能体配备网络搜索功能和金融专用插件可显著提升其在 FinSearchComp 上的表现,且模型及其工具的国家来源对性能有显著影响。通过贴近真实分析师任务并提供端到端的评估方式,FinSearchComp 为复杂金融搜索与推理提供了专业化、高难度的测试平台。
7. WorldForge: Unlocking Emergent 3D/4D Generation in Video Diffusion Model
via Training-Free Guidance
作者: Chenxi Song, Yanming Yang, Tong Zhao, Ruibo Li, Chi Zhang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-18 | 👍 点赞数: 21
摘要:
论文标题:WorldForge:通过无需训练的引导机制解锁视频扩散模型中的涌现式3D/4D生成
中文摘要:
近年来,视频扩散模型因其丰富的潜在世界先验,在空间智能任务中展现出强大的潜力。然而,这类模型在可控性方面的局限性以及几何结构上的不一致性,限制了其强大先验知识在实际3D/4D任务中的应用。因此,现有方法往往依赖重新训练或微调,但这可能导致预训练知识的退化,并带来高昂的计算成本。为解决这一问题,我们提出了WorldForge——一种无需训练、在推理阶段即可使用的框架,该框架由三个紧密耦合的模块组成。步内递归优化(Intra-Step Recursive Refinement) 在推理过程中引入递归优化机制,在每一步去噪过程中反复优化网络预测,从而实现精确的轨迹注入;光流门控潜在融合(Flow-Gated Latent Fusion) 利用光流相似性在潜在空间中解耦运动与外观信息,并选择性地将轨迹引导信号注入与运动相关的通道;双路径自校正引导(Dual-Path Self-Corrective Guidance) 通过比较有引导和无引导的去噪路径,自适应地纠正由噪声或结构信号错位引起的轨迹漂移。上述组件协同工作,在无需任何训练的前提下实现了细粒度且与目标轨迹对齐的引导控制,兼顾了精准的运动控制与照片级真实感内容的生成。大量跨多个基准的实验验证了本方法在视觉真实性、轨迹一致性和画面保真度方面的显著优势。本研究提出了一种全新的即插即用范式,为空间 智能任务中生成先验的有效利用提供了新的视角。
8. RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation
作者: Yuming Jiang, Siteng Huang, Shengke Xue, Yaxi Zhao, Jun Cen, Sicong Leng, Kehan Li, Jiayan Guo, Kexiang Wang, Mingxiu Chen, Fan Wang, Deli Zhao, Xin Li
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-18 | 👍 点赞数: 19
摘要:
论文标题:RynnVLA-001:利用人类示范提升机器人操作能力
中文摘要:
本文提出了RynnVLA-001,一种基于大规模人类示范视频进行生成式预训练的视觉-语言-动作(Vision-Language-Action, VLA)模型。我们提出了一种新颖的两阶段预训练方法。第一阶段为“以自我为中心的视频生成式预训练”(Ego-Centric Video Generative Pretraining),在1200万条以自我为中心的操作视频上训练一个图像到视频(Image-to-Video)模型,根据初始帧和语言指令来预测未来的视频帧。第二阶段为“以人为中心的轨迹感知建模”(Human-Centric Trajectory-Aware Modeling),在此基础上进一步联合预测未来关键点的运动轨迹,从而有效连接视觉帧预测与动作预测。此外,为了增强动作表征能力,我 们提出了ActionVAE——一种变分自编码器,可将动作序列压缩为紧凑的潜在嵌入表示,降低VLA模型输出空间的复杂性。在相同的下游机器人数据集上进行微调后,RynnVLA-001相较于当前最先进的基线模型表现出更优的性能,验证了所提出的预训练策略能够为VLA模型提供更有效的初始化。
9. AToken: A Unified Tokenizer for Vision
作者: Jiasen Lu, Liangchen Song, Mingze Xu, Byeongjoo Ahn, Yanjun Wang, Chen Chen, Afshin Dehghan, Yinfei Yang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-17 | 👍 点赞数: 17
摘要:
论文标题:AToken:一种面向视觉的统一 tokenizer
中文摘要:
本文提出 AToken,这是首个能够在图像、视频和 3D 资产上同时实现高保真重建与语义理解的统一视觉 tokenizer。不同于现有仅针对单一模态、且专注于重建或理解任务的 tokenizer,AToken 将多种视觉输入编码到一个共享的四维(4D)潜在空间中,从而在一个统一框架下实现了任务与模态的双重融合。具体而言,我们设计了一种纯 Transformer 架构,并引入 4D 旋转位置编码,以处理任意分辨率和时间长度的视觉输入。为确保训练稳定性,我们提出了一种无需对抗训练的目标函数,结合感知损失与 Gram 矩阵损失,在重建 质量方面达到了当前最优水平。通过采用渐进式训练策略,AToken 逐步扩展至单张图像、视频和 3D 数据,支持连续与离散两种潜在 token 表示。实验结果显示,AToken 在图像任务上取得 0.21 的 rFID 和 82.2% 的 ImageNet 准确率,在视频任务上达到 3.01 的 rFVD 和 32.6% 的 MSRVTT 检索准确率,在 3D 任务上实现 28.19 的 PSNR 和 90.9% 的分类准确率。在下游应用中,AToken 同时支持视觉生成任务(如基于连续与离散 token 的图像生成、文本到视频生成、图像到 3D 合成)和理解任务(如多模态大语言模型),在各类基准测试中均表现出具有竞争力的性能。本研究为基于统一视觉 token 化的下一代多模态人工智能系统提供了新的方向。
10. MultiEdit: Advancing Instruction-based Image Editing on Diverse and
Challenging Tasks
作者: Mingsong Li, Lin Liu, Hongjun Wang, Haoxing Chen, Xijun Gu, Shizhan Liu, Dong Gong, Junbo Zhao, Zhenzhong Lan, Jianguo Li
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-18 | 👍 点赞数: 7
摘要:
论文标题:MultiEdit:推动基于指令的图像编辑在多样化与挑战性任务上的发展
中文摘要:
当前 基于指令的图像编辑(IBIE)方法在应对复杂编辑任务时面临困难,主要原因在于现有数据集的编辑类型有限且样本数量不足。此外,传统的数据集构建方式常包含噪声较大的图像-文本对,这可能引入偏差,并限制模型在复杂编辑场景中的表现能力。为解决这些问题,我们提出了MultiEdit,一个包含超过10.7万高质量图像编辑样本的综合性数据集。该数据集涵盖了6种具有挑战性的编辑任务,包括18种非风格迁移类编辑类型和38种风格迁移操作,范围从复杂的风格迁移,到诸如人物指代编辑和图像内文本编辑等复杂的语义操作。我们设计了一种新颖的数据集构建流程,利用两个多模态大语言模型(MLLMs),分别生成视觉自适应的编辑指令和高保真的编辑后图像。大量实验表明,使用我们的MultiEdit-Train数据集对基础开源模型进行微调,能够显著提升模型在所提出的MultiEdit-Test基准上处理复杂编辑任务的性能,同时有效保持其在标准编辑基准上的原有能力。我们认为,MultiEdit为推进更加多样化和更具挑战性的IBIE研究提供了宝贵的资源。本数据集已公开发布于 https://huggingface.co/datasets/inclusionAI/MultiEdit。
11. Apertus: Democratizing Open and Compliant LLMs for Global Language
Environments
作者: Alejandro Hernández-Cano, Alexander Hägele, Allen Hao Huang, Angelika Romanou, Antoni-Joan Solergibert, Barna Pasztor, Bettina Messmer, Dhia Garbaya, Eduard Frank Ďurech, Ido Hakimi, Juan García Giraldo, Mete Ismayilzada, Negar Foroutan, Skander Moalla, Tiancheng Chen, Vinko Sabolčec, Yixuan Xu, Michael Aerni, Badr AlKhamissi, Ines Altemir Marinas, Mohammad Hossein Amani, Matin Ansaripour, Ilia Badanin, Harold Benoit, Emanuela Boros, Nicholas Browning, Fabian Bösch, Maximilian Böther, Niklas Canova, Camille Challier, Clement Charmillot, Jonathan Coles, Jan Deriu, Arnout Devos, Lukas Drescher, Daniil Dzenhaliou, Maud Ehrmann, Dongyang Fan, Simin Fan, Silin Gao, Miguel Gila, María Grandury, Diba Hashemi, Alexander Hoyle, Jiaming Jiang, Mark Klein, Andrei Kucharavy, Anastasiia Kucherenko, Frederike Lübeck, Roman Machacek, Theofilos Manitaras, Andreas Marfurt, Kyle Matoba, Simon Matrenok, Henrique Mendoncça, Fawzi Roberto Mohamed, Syrielle Montariol, Luca Mouchel, Sven Najem-Meyer, Jingwei Ni, Gennaro Oliva, Matteo Pagliardini, Elia Palme, Andrei Panferov, Léo Paoletti, Marco Passerini, Ivan Pavlov, Auguste Poiroux, Kaustubh Ponkshe, Nathan Ranchin, Javi Rando, Mathieu Sauser, Jakhongir Saydaliev, Muhammad Ali Sayfiddinov, Marian Schneider, Stefano Schuppli, Marco Scialanga, Andrei Semenov, Kumar Shridhar, Raghav Singhal, Anna Sotnikova, Alexander Sternfeld, Ayush Kumar Tarun, Paul Teiletche, Jannis Vamvas, Xiaozhe Yao, Hao Zhao Alexander Ilic, Ana Klimovic, Andreas Krause, Caglar Gulcehre, David Rosenthal, Elliott Ash, Florian Tramèr, Joost VandeVondele, Livio Veraldi, Martin Rajman, Thomas Schulthess, Torsten Hoefler, Antoine Bosselut, Martin Jaggi, Imanol Schlag
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-17 | 👍 点赞数: 7
摘要:
论文标题:Apertus:面向全球语言环境的开放与合规大语言模型民主化
中文摘要:
本文提出 Apertus,一个完全开源的大语言模型(LLM)系列,旨在解决当前开源模型生态中的两大系统性缺陷:数据合规性与多语言代表性。与许多仅发布模型权重却缺乏可复现数据流程、或忽视内容所有者权利的先前模型不同,Apertus 模型的预训练仅使用公开可用的数据,并回溯性地遵守 robots.txt 排除规则,同时过滤非许可性、有害性以及包含个人身份信息的内容。为降低记忆化风险,我们在预训练中采用 Goldfish 目标函数,在显著抑制对训练数据逐字复现的同时,保持了在下游任务中的良好性能。Apertus 模型还扩展了多语言覆盖能力,基于来自超过 1800 种语言的约 15 万亿 token 进行训练,其中约 40% 的预训练数据为非英语内容。该模型以 80 亿和 700 亿参数两个规模发布,在多语言基准测试中,其性能接近或达到当前完全开源模型中的最先进水平,表现媲美甚至优于其他开源权重模型。除了模型权重外,我们还以宽松许可协议公开了整个研发周期中的全部科学成果,包括数据处理脚本、检查点、评测套件和训练代码,从而实现透明审查与可扩展性。
12. Unleashing the Potential of Multimodal LLMs for Zero-Shot
Spatio-Temporal Video Grounding
作者: Zaiquan Yang, Yuhao Liu, Gerhard Hancke, Rynson W. H. Lau
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-18 | 👍 点赞数: 5
摘要:
论文标题:释放多模态大语言模型在零样本时空视频定位中的潜力
中文摘要:
时空视频定位(Spatio-temporal video grounding, STVG)旨在根据输入的文本查询,定位视频中对应的时空轨迹管(spatio-temporal tube)。本文利用多模态大语言模型(MLLMs)探索STVG任务中的零样本解决方案。我们揭示了关于MLLMs的两个关键洞察:(1)MLLMs倾向于动态分配特殊的标记(tokens),即“定位标记”(grounding tokens),用于实现文本查询的视觉定位;(2)由于无法充分整合文本查询中的各类线索(如属性、动作等)进行推理,MLLMs常出现定位效果欠佳的问题。基于上述发现,我们提出一种基于MLLM的零样本STVG框架,引入了新颖的解耦式时空高亮策略(Decomposed Spatio-Temporal Highlighting, DSTH)和时序增强聚合策略(Temporal-Augmented Assembling, TAS),以充分释放MLLM的推理能力。DSTH策略首先将原始查询分解为属性和动作两个子查询,分别用于在空间和时间维度上判断目标的存在性;随后,通过一种新颖的对数概率引导重注意力模块(Logit-guided Re-attention, LRA),学习隐变量作为空间与时 间提示(prompts),并通过正则化每个子查询的token预测过程来优化这些提示。这些提示分别突出属性和动作线索,引导模型关注可靠的时空相关视觉区域。此外,考虑到属性子查询所得的空间定位应具备时间上的一致性,我们进一步提出TAS策略,通过将原始视频帧与时序增强帧共同作为输入,聚合多个时间点的预测结果,提升定位的时间连贯性。我们在多种MLLM上评估了所提方法,在三个主流的STVG基准测试上均优于当前最先进的(SOTA)方法。代码地址:https://github.com/zaiquanyang/LLaVA_Next_STVG。
13. RecoWorld: Building Simulated Environments for Agentic Recommender
Systems
作者: Fei Liu, Xinyu Lin, Hanchao Yu, Mingyuan Wu, Jianyu Wang, Qiang Zhang, Zhuokai Zhao, Yinglong Xia, Yao Zhang, Weiwei Li, Mingze Gao, Qifan Wang, Lizhu Zhang, Benyu Zhang, Xiangjun Fan
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-12 | 👍 点赞数: 5
摘要:
论文标题:RecoWorld:面向智能体推荐系统的模拟环境构建
中文摘要:
本文提出RecoWorld,一种 专为智能体推荐系统(agentic recommender systems)设计的模拟环境构建蓝图。此类环境为智能体提供了合适的训练空间,使其能够在不影响真实用户的情况下从错误中学习。RecoWorld的核心特色在于其双视角架构:一个模拟用户与一个具备自主决策能力的推荐智能体进行多轮交互,目标是最大化用户留存。用户模拟器会评估被推荐的项目,更新自身的心理状态,并在察觉到潜在的用户流失风险时,生成具有反思性的指令。推荐智能体则通过整合这些来自用户的指令及其推理轨迹,动态调整推荐策略,从而形成一个主动吸引用户参与的动态反馈循环。该过程充分利用了现代大语言模型(LLMs)卓越的推理能力。我们在模拟器中探索了多种内容表征方式,包括基于文本的、多模态的以及语义ID建模方法,并讨论了多轮强化学习如何使推荐系统通过迭代交互不断优化其策略。RecoWorld还支持多智能体模拟,使研究者能够仿真特定用户群体的行为响应。这一框架标志着迈向“用户与智能体共同塑造个性化信息流”的推荐系统的重要第一步。我们展望未来将出现“用户发出指令,推荐系统作出响应”的新型交互范式,协同优化用户留存与参与度。
14. Can Multimodal LLMs See Materials Clearly? A Multimodal Benchmark on
Materials Characterization
作者: Zhengzhao Lai, Youbin Zheng, Zhenyang Cai, Haonan Lyu, Jinpu Yang, Hongqing Liang, Yan Hu, Benyou Wang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-11 | 👍 点赞数: 5
摘要:
论文标题:多模态大语言模型能清晰“看见”材料吗?面向材料表征的多模态基准研究
中文摘要:
材料表征是获取材料信息的基础,有助于揭示工艺-微观结构-性能之间的关系,从而指导材料的设计与优化。尽管近年来多模态大语言模型(MLLMs)在材料科学的生成与预测任务中展现出潜力,但其对真实世界表征图像数据的理解能力仍缺乏深入探索。为填补这一空白,我们提出了MatCha——首个面向材料表征图像理解的基准测试,包含1500个需要专家级领域知识才能回答的问题。MatCha涵盖材料研究中的四个关键阶段,共21项不同任务,每一项均旨在反映材料科学家在实际科研中面临的真实挑战。我们在MatCha上对当前最先进的多模态大语言模型进行了评估,结果表明其性能与人类专家相比仍存在显著差距。特别是在需要更高层次专业知识和复杂视觉感知的问题上,模型表现明显下降。简单的少样本提示(few-shot prompting)和思维链提示(chain-of-thought prompting)难以有效缓解这些局限性。这些发现表明,现有的多模态大语言模型在应对真实材料表征场景时仍适应能力有限。我们期望MatCha能够推动未来在新材料发现、自主科学智能体等方向的研究。MatCha数据集已公开发布于 https://github.com/FreedomIntelligence/MatCha。
15. Agentic Software Engineering: Foundational Pillars and a Research
Roadmap
作者: Ahmed E. Hassan, Hao Li, Dayi Lin, Bram Adams, Tse-Hsun Chen, Yutaro Kashiwa, Dong Qiu
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-07 | 👍 点赞数: 5
摘要:
论文标题:代理式软件工程:基础支柱与研究路线图
中文摘要:
代理式软件工程(SE 3.0)标志着一个新时代的到来,在这一时代中,智能代理所承担的任务不再局限于简单的代码生成,而是致力于实现复杂且以目标为导向的软件工程(SE)任务。为了在充分发挥这些新能力的同时确保系统的可信性,我们必须认识到在代理式软件工程时代,软件工程领域内部存在一种根本性的二元结构,即两种相辅相成的模式:面向人类的软件工程(SE for Humans)和面向代理的软件工程(SE for Agents)。这种二元性要求我们对软件工程的四大基础支柱——参与者(actors)、流程(processes)、工具(tools)和制品(artifacts)——进行根本性的重构,使其在不同模式下呈现出不同的形态。为此,我们提出了两个专用的工作平台来支持这一愿景。代理指挥环境(Agent Command Environment, ACE)作为指挥中心,供人类组织和指导代理团队,并处理诸如“合并就绪包”(Merge-Readiness Packs, MRPs)和“咨询请求包”(Consultation Request Packs, CRPs)等输出成果。代理执行环境(Agent Execution Environment, AEE)则是一个数字工作空间,代理在此执行任务,并在面对模糊性或复杂权衡时主动调用人类专家的知识。这种双向协作机制支持由代理发起的人类回调(callbacks)与任务移交(handovers),催生出一系列新的、结构化的工程活动(即流程),重新定义了人机协同的范式,将实践从“代理编码”提升至真正的“代理式软件工程”。本文提出了结构化代理式软件工程(Structured Agentic Software Engineering, SASE)的愿景,阐述了未来软件工程若干关键的基础支柱,并最终提出一项研究路线图,识别出若干核心挑战与机遇,同时简要探讨这一发展趋势对软件工程教育带来的影响。我们的目标并非提供一个终极解决方案,而是构建一个具备结构化术语的概念框架,以激发整个社区的广泛对话,推动软件工程领域超越传统以人类为中心的基本假设,迈向一个更规范、可扩展且值得信赖的代理式未来。
16. Mind the Gap: A Closer Look at Tokenization for Multiple-Choice Question
Answering with LLMs
作者: Mario Sanz-Guerrero, Minh Duc Bui, Katharina von der Wense
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-18 | 👍 点赞数: 4
摘要:
论文标题:注意差距:深入探讨大语言模型在多选题问答中的分词问题
中文摘要:
在使用多选题问答(MCQA)任务评估大语言模型(LLMs)时,通常会在提示(prompt)末尾添加字符串“Answer:”,以便通过下一个词元(token)的概率实现自动答案提取。然而,对于冒号后空格的分词方式,目前尚无统一标准,这一选择常被视为微不足道而被忽视。本文揭示了这种看似无关紧要的分词差异可能导致高达11%的准确率差异,并引发模型排名的重排,从而对以往研究中LLM比较结果的可靠性提出了质疑。令人意外的是,我们发现将空格与答案字母一起分词的策略表现一致且具有统计显著性的性能提升,因此推荐采用该方法。此外,该策略还能改善模型的校准性,增强模型置信度估计的可靠性。本研究强调了细致评估设计的重要性,并呼吁建立标准化、透明化的评估协议,以确保评估结果的可靠性和可比性。
17. EdiVal-Agent: An Object-Centric Framework for Automated, Scalable,
Fine-Grained Evaluation of Multi-Turn Editing
作者: Tianyu Chen, Yasi Zhang, Zhi Zhang, Peiyu Yu, Shu Wang, Zhendong Wang, Kevin Lin, Xiaofei Wang, Zhengyuan Yang, Linjie Li, Chung-Ching Lin, Jianwen Xie, Oscar Leong, Lijuan Wang, Ying Nian Wu, Mingyuan Zhou
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-16 | 👍 点赞数: 3
摘要:
论文标题:EdiVal-Agent:一种面向自动化、可扩展、细粒度多轮图像编辑评估的以对象为中心的框架
中文摘要:
基于指令的图像编辑技术近年来发展迅速,但其可靠且可解释的评估方法仍是一个瓶颈。现有的评估方法要么(i)依赖成对的参考图像——导致覆盖范围有限,并继承了先前生成模型中的偏差;要么(ii)完全依赖零样本视觉-语言模型(VLMs),而这类模型通过提示词对指令遵循性、内容一致性和视觉质量的评估往往不够精确。
为解决这一问题,我们提出了EdiVal-Agent,一种从对象中心视角出发的自动化、可扩展且细粒度的多轮指令编辑评估 框架,该框架由一系列专家工具支持。给定一张输入图像后,EdiVal-Agent首先将其分解为具有语义意义的对象,随后生成多样化且上下文感知的编辑指令。在评估过程中,该框架将视觉-语言模型(VLMs)与开放词汇对象检测器相结合,用于评估指令遵循能力;利用语义级特征提取器评估内容一致性;并借助人类偏好模型判断视觉质量。我们证明,在指令遵循性评估中,将VLMs与对象检测器结合的方法相比单独使用VLMs或基于CLIP的指标,能更好地与人类判断保持一致。此外,该框架采用模块化设计,便于未来集成新的评估工具,从而持续提升评估精度。
基于该框架,我们构建了EdiVal-Bench,一个涵盖9种指令类型和11种前沿图像编辑模型的多轮编辑基准,涉及自回归(AR)模型(如Nano Banana、GPT-Image-1)、流匹配(flow-matching)以及扩散模型(diffusion)等多种范式。实验表明,EdiVal-Agent可用于识别现有模型的典型失败模式,进而指导下一代图像编辑模型的研发。项目主页:https://tianyucodings.github.io/EdiVAL-page/。
18. EchoVLM: Dynamic Mixture-of-Experts Vision-Language Model for Universal
Ultrasound Intelligence
作者: Chaoyin She, Ruifang Lu, Lida Chen, Wei Wang, Qinghua Huang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-18 | 👍 点赞数: 2
摘要:
论文标题:EchoVLM:面向通用超声智能的动态混合专家视觉-语言模型
中文摘要:
超声成像因其无电离辐射、成本低和实时成像等优势,已成为早期癌症筛查的首选影像学手段。然而,传统的超声诊断高度依赖医生的专业经验,存在主观性强、诊断效率低等问题。视觉-语言模型(Vision-Language Models, VLMs)为此提供了潜在的解决方案,但现有的通用模型在超声医学任务中知识有限,在多器官病灶识别方面泛化能力差,且在多任务诊断中效率较低。为克服这些局限性,本文提出了EchoVLM——一种专为超声医学影像设计的视觉-语言模型。该模型采用混合专家(Mixture of Experts, MoE)架构,并在涵盖七个解剖区域的数据上进行训练,能够同时执行多项任务,包括超声报告生成、疾病诊断以及视觉问答(VQA)。实验结果表明,在超声报告生成任务中,与Qwen2-VL相比,EchoVLM在BLEU-1指标上提升了10.15分,在ROUGE-1指标上提升了4.77分,表现出显著性能优势。上述结果表明,EchoVLM在提升超声诊断准确性方面具有巨大潜力,可为未来临床应用提供可行的技术路径。源代码和模型权重已公开发布于 https://github.com/Asunatan/EchoVLM。
19. Developer-LLM Conversations: An Empirical Study of Interactions and
Generated Code Quality
作者: Suzhen Zhong, Ying Zou, Bram Adams
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-12
摘要:
论文标题:开发者与大语言模型的对话:交互模式与生成代码质量的实证研究
摘要:
大语言模型(Large Language Models, LLMs)正日益融入现代软件开发流程,通过自然语言对话的方式协助开发者完成代码生成、API 解释以及迭代式问题求解。尽管LLM已被广泛采用,但目前对开发者在实际中如何与LLM交互、这些对话动态如何影响任务结果、代码质量以及软件工程流程,仍缺乏深入理解。为解决这一问题,我们利用 CodeChat 数据集——一个源自 WildChat 的大规模真实世界开发者-LLM 对话数据集,包含 82,845 次对话,涵盖超过 20 种编程语言生成的 368,506 个代码片段——开展研究。我们发现,LLM 的回复显著长于开发者的提问,中位数 token 长度比达到 14:1。多轮对话占数据集的 68%,其演进通常源于需求变化、提示不完整或澄清请求。主题分析显示,网页设计(占对话的 9.6%)和神经网络训练(8.7%)是LLM最常辅助的任务类型。在五种主流编程语言(Python、JavaScript、C++、Java 和 C#)上的评估揭示了LLM生成代码中存在的普遍且具有语言特异性的缺陷:生成的 Python 和 JavaScript 代码中频繁出现未定义变量(分别占代码片段的 83.4% 和 75.3%);Java 代码普遍缺少必要的注释(75.9%);C++ 代码常遗漏头文件(41.1%);C# 代码则存在命名空间未解析的问题(49.2%)。在多轮对话过程中,语法错误和导入错误往往持续存在;然而,Java 的文档质量在五轮内最多提升了 14.7%,Python 的导入处理准确率也提升了 3.7%。我们发现,明确指出前轮生成代码中的错误并要求修复的提示语,在纠正错误方面最为有效。
20. FSG-Net: Frequency-Spatial Synergistic Gated Network for High-Resolution
Remote Sensing Change Detection
作者: Zhongxiang Xie, Shuangxi Miao, Yuhan Jiang, Zhewei Zhang, Jing Yao, Xuecao Li, Jianxi Huang, Pedram Ghamisi
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-08
摘要:
论文标题:FSG-Net:用于高分辨率遥感影像变化检测的频率-空间协同门控网络
中文摘要:
高分辨率遥感影像的变化检测是地球观测应用中的关键基础,然而其检测性能常受到两个关键挑战的制约。首先,由于模型容易将时间差异引起的辐射变化(如光照、季节变化)误判为真实变化,导致虚警现象普遍存在;其次,深层抽象特征与浅层富含细节的特征之间存在不可忽视的语义鸿沟,阻碍了二者有效融合,导致变化边界的刻画模糊不清。为更进一步解决上述问题,本文提出频率-空间协同门控网络(FSG-Net),这是一种旨在系统性分离语义变化与干扰变异的新颖框架。具体而言,FSG-Net 首先在频域进行操作,通过设计的差异感知小波交互模块(Discrepancy-Aware Wavelet Interaction Module, DAWIM),自适应地抑制伪变化,选择性地处理不同频率成分;随后,在空间域中引入协同时-空注意力模块(Synergistic Temporal-Spatial Attention Module, STSAM),增强真实变化区域的显著性;最后,为弥合语义鸿沟,采用轻量级门控融合单元(Lightweight Gated Fusion Unit, LGFU),利用高层语义信息对浅层关键细节进行选择性门控与融合。在 CDD、GZ-CD 和 LEVIR-CD 三个基准数据集上的大量实验验证了 FSG-Net 的优越性能,分别取得了 94.16%、89.51% 和 91.27% 的 F1 分数,达到新的最先进水平。代码将在论文可能发表后公开于 https://github.com/zxXie-Air/FSG-Net。