每日论文 - 2025年09月21日
论文总数: 20
1. ScaleCUA: Scaling Open-Source Computer Use Agents with Cross-Platform
Data
作者: Zhaoyang Liu, JingJing Xie, Zichen Ding, Zehao Li, Bowen Yang, Zhenyu Wu, Xuehui Wang, Qiushi Sun, Shi Liu, Weiyun Wang, Shenglong Ye, Qingyun Li, Zeyue Tian, Gen Luo, Xiangyu Yue, Biqing Qi, Kai Chen, Bowen Zhou, Yu Qiao, Qifeng Chen, Wenhai Wang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-18 | 👍 点赞数: 101
摘要:
论文标题:ScaleCUA:通过跨平台数据扩展开源计算机使用代理
中文摘要:
视觉-语言模型(Vision-Language Models, VLMs)使得能够自主操作图形用户界面(GUI)的计算机使用代理(Computer Use Agents, CUAs)成为可能,展现出巨大潜力。然而,由于缺乏大规模、开源的计算机使用数据和基础模型,该领域的发展受到限制。在本研究中,我们提出了ScaleCUA,旨在推动开源CUA系统的规模化发展。我们构建了一个覆盖6种操作系统和3个任务领域的大型数据集,该数据集通过一个结合自动化代理与人类专家的闭环流水线生成。基于这一扩展后的数据训练,ScaleCUA能够在不同平台上无缝运行。具体而言,该模型在多个基准上显著优于基线方法(在WebArena-Lite-v2上提升+26.6,在ScreenSpot-Pro上提升+10.7),并在多个权威测试集上创下新的最先进性能记录(MMBench-GUI L1-Hard达到94.4%,OSWorld-G达到60.6%,WebArena-Lite-v2达到47.4%)。这些结果凸显了数据驱动规模化在通用型计算机使用代理发展中的强大潜力。我们将公开发布数据、模型和代码,以促进后续研究:https://github.com/OpenGVLab/ScaleCUA。
2. FlowRL: Matching Reward Distributions for LLM Reasoning
作者: Xuekai Zhu, Daixuan Cheng, Dinghuai Zhang, Hengli Li, Kaiyan Zhang, Che Jiang, Youbang Sun, Ermo Hua, Yuxin Zuo, Xingtai Lv, Qizheng Zhang, Lin Chen, Fanghao Shao, Bo Xue, Yunchong Song, Zhenjie Yang, Ganqu Cui, Ning Ding, Jianfeng Gao, Xiaodong Liu, Bowen Zhou, Hongyuan Mei, Zhouhan Lin
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-18 | 👍 点赞数: 101
摘要:
论文标题:FlowRL:通过匹配奖励分布实现大语言模型推理
中文摘要:
我们提出了FlowRL:一种通过流平衡(flow balancing)来匹配完整奖励分布的方法,而非在大语言模型(LLM)的强化学习(RL)中单纯最大化奖励。近期先进的推理模型普遍采用奖励最大化方法(例如PPO和GRPO),这类方法容易过度优化主导性的奖励信号,而忽略那些出现频率较低但同样有效的推理路径,从而导致生成结果的多样性下降。相比之下,我们的方法引入可学习的配分函数,将标量奖励转化为归一化的目标分布,并最小化策略分布与该目标分布之间的逆KL散度。我们将这一思想实现为一种流量均衡的优化方法,有效促进了多样化的探索以及可泛化的推理轨迹。我们在数学推理和代码推理任务上进行了实验验证:在数学基准测试中,FlowRL相比GRPO 平均提升了10.0%,相比PPO提升了5.1%;在代码推理任务上也持续表现出更优性能。这些结果表明,奖励分布匹配是实现高效探索与多样化推理的关键步骤,对大语言模型的强化学习具有重要意义。
3. Reasoning over Boundaries: Enhancing Specification Alignment via
Test-time Delibration
作者: Haoran Zhang, Yafu Li, Xuyang Hu, Dongrui Liu, Zhilin Wang, Bo Li, Yu Cheng
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-18 | 👍 点赞数: 50
摘要:
论文标题:跨越边界进行推理:通过测试时审思增强规范对齐
中文摘要:
大语言模型(LLMs)正被 increasingly 应用于各种真实场景中,每个场景都由用户或组织定制的特定行为与安全规范(spec)所约束。这些规范可分为安全规范(safety-spec)和行为规范(behavioral-spec),在不同场景中各不相同,并随着偏好和需求的变化而动态演进。我们将这一挑战形式化为“规范对齐”问题,聚焦于大语言模型在行为和安全两个维度上遵循动态、场景特定规范的能力。为应对该挑战,我们提出了Align3——一种轻量级方法,采用测试时审思(Test-Time Deliberation, TTD),结合分层反思与修订机制,以推理规范的边界。我们进一步构建了SpecBench,一个统一的规范对齐评测基准,涵盖5个场景、103项规范以及1,500个提示语。在15个推理模型和18个指令类模型上,结合多种TTD方法(包括Self-Refine、TPO和MoreThink)的实验得出三项关键发现:(i)测试时审思能够提升规范对齐能力;(ii)Align3以极低开销推动了安全性与有用性之间的权衡前沿;(iii)SpecBench能有效揭示当前模型在规范对齐方面的不足。这些结果凸显了测试时审思作为应对现实世界规范边界推理任务的一种有效策略的潜力。
4. Evolving Language Models without Labels: Majority Drives Selection,
Novelty Promotes Variation
作者: Yujun Zhou, Zhenwen Liang, Haolin Liu, Wenhao Yu, Kishan Panaganti, Linfeng Song, Dian Yu, Xiangliang Zhang, Haitao Mi, Dong Yu
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-18 | 👍 点赞数: 32
摘要:
论文标题:无需标签的语言模型进化:多数决定选择,新颖性促进变异
中文摘要:
大型语言模型(LLMs)正越来越多地通过可验证奖励的强化学习(RLVR)进行训练。然而,在现实世界的应用中,人们期望模型能够在没有标签或外部评判的情况下实现自我改进。现有的无标签方法——如置信度最小化、自一致性或多数投票目标——虽然能够稳定学习过程,但会逐渐抑制探索行为,导致熵崩溃现象:生成内容变得更短、多样性降低且脆弱。与以往诸如测试时强化学习(Test-Time Reinforcement Learning, TTRL)等主要针对当前无标签数据集进行适应的方法不同,我们的目标更为广泛:在不牺牲模型内在探索能力和泛化能力的前提下实现通用性能提升,即实现“进化”。我们对这一问题进行了形式化建模,并提出了面向进化的无标签强化学习方法(EVOL-RL),这是一种在无标签环境下将稳定性与变异性相结合的简单机制。EVOL-RL 将多数投票答案保留为稳定的锚点(选择),同时引入一种感知新颖性的奖励机制,鼓励生成在推理路径上不同于已有输出的回答(变异),并通过语义空间中的表示来衡量差异。该方法基于GRPO实现,并采用非对称裁剪以保留强信号,辅以熵正则项维持搜索活力。这种“多数用于选择 + 新颖性用于变异”的设计有效防止了多样性崩溃,保持了更长且更具信息量的思维链,显著提升了 pass@1 和 pass@n 指标。EVOL-RL 始终优于仅依赖多数投票的 TTRL 基线;例如,在无标签的 AIME24 数据上训练后,Qwen3-4B-Base 模型在 AIME25 上的 pass@1 从 TTRL 的 4.6% 提升至 16.4%,pass@16 则从 18.5% 提高到 37.9%。EVOL-RL 不仅避免了多样性坍缩,还展现出跨领域(如 GPQA)更强的泛化能力。此外,我们还证明 EVOL-RL 在 RLVR 设定下同样能提升性能,进一步凸显其广泛的适用性。
5. WorldForge: Unlocking Emergent 3D/4D Generation in Video Diffusion Model
via Training-Free Guidance
作者: Chenxi Song, Yanming Yang, Tong Zhao, Ruibo Li, Chi Zhang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-18 | 👍 点赞数: 30
摘要:
论文标题:WorldForge:通过无需训练的引导机制在视频扩散模型中实现涌现式3D/4D生成
中文摘要:
近年来,视频扩散模型因其丰富的潜在世界先验,在空间智能任务中展现出强大的潜力。然而,由于其可控性有限且几何一致性不足,导致这些先验知识与在实际3D/4D任务中的应用之间存在显著差距。因此,现有方法通常依赖重新训练或微调,但这可能破坏预训练获得的知识,并带来高昂的计算成本。为解决这一问题,我们提出了WorldForge——一种无需训练、在推理阶段即可使用的框架,该框架由三个紧密耦合的模块组成。步内递归优化(Intra-Step Recursive Refinement) 在推理过程中引入递归优化机制,在每个去噪步骤内部多次优化网络预测,从而实现精确的轨迹注入;光流门控潜在融合(Flow-Gated Latent Fusion) 利用光流相似性在潜在空间中解耦运动与外观信息,并选择性地将轨迹引导信号注入与运动相关的通道;双路径自校正引导(Dual-Path Self-Corrective Guidance) 通过比较有引导和无引导的去噪路径,自适应地纠正由噪声或结构信号错位引起的轨迹漂移。上述组件协同工作,实现了无需训练的细粒度、轨迹对齐的引导控制,兼顾了精准的运动操控与照片级真实感内容生成。大量跨多个基准的实验验证了本方法在视觉真实感、轨迹一致性和图像保真度方面的优越性能。本研究提出了一种全新的即插即用范式,用于可控视频合成,为利用生成模型先验开展空间智能研究提供了新视角。
6. AToken: A Unified Tokenizer for Vision
作者: Jiasen Lu, Liangchen Song, Mingze Xu, Byeongjoo Ahn, Yanjun Wang, Chen Chen, Afshin Dehghan, Yinfei Yang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-17 | 👍 点赞数: 30
摘要:
论文标题:AToken:一种面向视觉的统一 tokenizer
中文摘要:
本文提出 AToken,这是首个能够在图像、视频和3D资产上同时实现高保真重建与语义理解的统一视觉 tokenizer。不同于现有方法通常仅针对单一模态,在重建或理解任务上 specialization,AToken 将这些多样的视觉输入编码到一个共享的四维(4D)潜在空间中,从而在一个统一框架下实现了任务与模态的双重融合。具体而言,我们设计了一种纯 Transformer 架构,并引入 4D 旋转位置嵌入(rotary position embeddings),以处理任意分辨率和时间长度的视觉输入。为确保训练稳定性,我们提出了一种无需对抗训练的目标函数,结合感知损失(perceptual loss)与 Gram 矩阵损失,在重建质量方面达到了当前最优水平。通过采用渐进式训练策略,AToken 逐步扩展至单张图像、视频和 3D 数据,支持连续型与离散型潜在 token。实验结果显示,AToken 在图像任务上达到 0.21 的 rFID 和 82.2% 的 ImageNet 分类准确率,在视频任务上实现 3.01 的 rFVD 和 32.6% 的 MSRVTT 跨模态检索准确率,在 3D 任务上获得 28.19 的 PSNR 和 90.9% 的分类准确率。在下游应用中,AToken 同时支持视觉生成任务(如基于连续与离散 token 的图像生成、文本到视频生成、图像到3D合成)和理解任务(如多模态大语言模型),在各类基准测试中均表现出具有竞争力的性能。本研究为基于统一视觉 token 化的下一代多模态人工智能系统提供了重要启示。
7. FinSearchComp: Towards a Realistic, Expert-Level Evaluation of Financial
Search and Reasoning
作者: Liang Hu, Jianpeng Jiao, Jiashuo Liu, Yanle Ren, Zhoufutu Wen, Kaiyuan Zhang, Xuanliang Zhang, Xiang Gao, Tianci He, Fei Hu, Yali Liao, Zaiyuan Wang, Chenghao Yang, Qianyu Yang, Mingren Yin, Zhiyuan Zeng, Ge Zhang, Xinyi Zhang, Xiying Zhao, Zhenwei Zhu, Hongseok Namkoong, Wenhao Huang, Yuwen Tang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-16 | 👍 点赞数: 29
摘要:
论文标题:FinSearchComp:迈向真实、专家级别的金融搜索与推理能力评估
摘要:
搜索已成为基于大语言模型(LLM)智能体的核心基础设施,被广泛视为实现更通用智能的关键路径之一。金融领域尤其具有挑战性,是理想的验证场景:分析师通常需要在时效性强、专业性高的数据上进行复杂、多步骤的检索,这使其成为评估搜索能力与知识驱动型推理的理想领域。然而,目前尚无公开的金融数据集能够对端到端智能体的数据搜索能力进行全面评测,主要原因在于构建真实且复杂的任务需要深厚的金融专业知识,而时效性数据也难以有效评估。
本文提出了FinSearchComp——首个完全开源的、面向真实开放域金融搜索与推理任务的智能体评测基准。FinSearchComp包含三项任务:时效性数据获取、简单历史查询和复杂历史调查,紧密复现了现实世界中金融分析师的工作流程。为确保任务难度与标注可靠性,我们邀请了70位专业金融专家参与标注,并建立了严格的多阶段质量保障流程。该基准涵盖635个问题,覆盖全球市场及大中华地区市场,并已用于评估21个模型(或产品)。实验结果显示,Grok 4(联网版)在全球子集上表现最佳,准确率接近专家水平;DouBao(联网版)在大中华地区子集中领先。实验分析表明,为智能体配备网络搜索功能和金融专用插件可显著提升其在FinSearchComp上的表现,同时模型及其工具的国家来源对性能有显著影响。通过贴近真实分析师任务并提供端到端的评估方式,FinSearchComp为复杂金融搜索与推理能力提供了一个专业化、高难度的测试平台。
8. Understand Before You Generate: Self-Guided Training for Autoregressive
Image Generation
作者: Xiaoyu Yue, Zidong Wang, Yuqing Wang, Wenlong Zhang, Xihui Liu, Wanli Ouyang, Lei Bai, Luping Zhou
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-18 | 👍 点赞数: 27
摘要:
论文标题:生成之前先理解:面向自回归图像生成的自引导训练
中文摘要:
近期研究表明,高质量的视觉表征在图像生成中具有重要作用,同时也揭示了生成模型在图像理解能力上的局限性。作为最初为自然语言设计的一种生成范式,自回归模型在视觉任务中同样面临类似挑战。本文首次系统性地探讨了将“下一个标记预测”(next-token prediction)范式应用于视觉领域的机制。我们识别出阻碍高层视觉语义学习的三个关键问题:局部性与条件依赖性、跨步长语义 不一致性,以及空间不变性缺失。我们证明,通过在训练过程中引入自监督目标,可以有效缓解这些问题,从而提出一种新颖的训练框架——面向自回归模型的自引导训练(Self-guided Training for AutoRegressive models, ST-AR)。ST-AR 不依赖任何预训练的表征模型,显著提升了自回归模型的图像理解能力,并改善了生成质量。具体而言,在保持相同采样策略的前提下,ST-AR 使 LlamaGen-L 的 FID 指标提升了约 42%,LlamaGen-XL 的 FID 指标提升了约 49%。
9. RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation
作者: Yuming Jiang, Siteng Huang, Shengke Xue, Yaxi Zhao, Jun Cen, Sicong Leng, Kehan Li, Jiayan Guo, Kexiang Wang, Mingxiu Chen, Fan Wang, Deli Zhao, Xin Li
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-18 | 👍 点赞数: 20
摘要:
论文标题:RynnVLA-001:利用人类示范提升机器人操作能力
中文摘要:
本文提出了RynnVLA-001,一种基于大规模人类示范视频进行生成式预训练的视觉-语言-动作(Vision-Language-Action, VLA)模型。我们提出了一种新颖的两阶段预训练方法。第一阶段为“以自我为中心的视频 生成式预训练”(Ego-Centric Video Generative Pretraining),在1200万条以自我为中心的操纵类视频数据上训练一个图像到视频(Image-to-Video)模型,使其能够根据初始帧和语言指令预测未来的视频帧。第二阶段为“以人为中心的轨迹感知建模”(Human-Centric Trajectory-Aware Modeling),在此基础上联合预测未来关键点的运动轨迹,从而有效连接视觉帧预测与动作预测。此外,为了增强动作表征能力,我们提出了ActionVAE——一种变分自编码器,可将动作序列压缩为紧凑的潜在嵌入表示,降低VLA模型输出空间的复杂性。在相同的下游机器人数据集上进行微调后,RynnVLA-001相较于当前最先进的基线方法表现出更优的性能,验证了所提出的预训练策略能为VLA模型提供更有效的初始化。
10. MultiEdit: Advancing Instruction-based Image Editing on Diverse and
Challenging Tasks
作者: Mingsong Li, Lin Liu, Hongjun Wang, Haoxing Chen, Xijun Gu, Shizhan Liu, Dong Gong, Junbo Zhao, Zhenzhong Lan, Jianguo Li
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-18 | 👍 点赞数: 11
摘要:
论文标题:MultiEdit:推动基于指令的图像编辑在多样 化与挑战性任务上的发展
中文摘要:
当前基于指令的图像编辑(IBIE)方法在应对复杂编辑任务时面临困难,主要原因在于现有数据集的编辑类型有限且样本数量不足。此外,传统的数据集构建方式常包含噪声较大的图像-文本对,这可能引入偏差,并限制模型在复杂编辑场景中的能力。为解决这些问题,我们提出了MultiEdit,一个包含超过10.7万高质量图像编辑样本的综合性数据集。该数据集涵盖了6种具有挑战性的编辑任务,包括18种非风格迁移类编辑类型和38种风格迁移操作,范围从复杂的风格迁移延伸到复杂语义操作,如人物指代表达编辑和图像内文本编辑。我们采用了一种新颖的数据集构建流程,利用两个多模态大语言模型(MLLMs),分别生成视觉自适应的编辑指令和高保真的编辑后图像。大量实验表明,使用我们的MultiEdit-Train子集对基础开源模型进行微调,能显著提升模型在所提出的MultiEdit-Test基准上处理复杂编辑任务的性能,同时有效保持其在标准编辑基准上的原有能力。我们认为,MultiEdit为推进更加多样化和更具挑战性的IBIE研究提供了宝贵的资源。本数据集已公开发布于 https://huggingface.co/datasets/inclusionAI/MultiEdit。
11. Apertus: Democratizing Open and Compliant LLMs for Global Language
Environments
作者: Alejandro Hernández-Cano, Alexander Hägele, Allen Hao Huang, Angelika Romanou, Antoni-Joan Solergibert, Barna Pasztor, Bettina Messmer, Dhia Garbaya, Eduard Frank Ďurech, Ido Hakimi, Juan García Giraldo, Mete Ismayilzada, Negar Foroutan, Skander Moalla, Tiancheng Chen, Vinko Sabolčec, Yixuan Xu, Michael Aerni, Badr AlKhamissi, Ines Altemir Marinas, Mohammad Hossein Amani, Matin Ansaripour, Ilia Badanin, Harold Benoit, Emanuela Boros, Nicholas Browning, Fabian Bösch, Maximilian Böther, Niklas Canova, Camille Challier, Clement Charmillot, Jonathan Coles, Jan Deriu, Arnout Devos, Lukas Drescher, Daniil Dzenhaliou, Maud Ehrmann, Dongyang Fan, Simin Fan, Silin Gao, Miguel Gila, María Grandury, Diba Hashemi, Alexander Hoyle, Jiaming Jiang, Mark Klein, Andrei Kucharavy, Anastasiia Kucherenko, Frederike Lübeck, Roman Machacek, Theofilos Manitaras, Andreas Marfurt, Kyle Matoba, Simon Matrenok, Henrique Mendoncça, Fawzi Roberto Mohamed, Syrielle Montariol, Luca Mouchel, Sven Najem-Meyer, Jingwei Ni, Gennaro Oliva, Matteo Pagliardini, Elia Palme, Andrei Panferov, Léo Paoletti, Marco Passerini, Ivan Pavlov, Auguste Poiroux, Kaustubh Ponkshe, Nathan Ranchin, Javi Rando, Mathieu Sauser, Jakhongir Saydaliev, Muhammad Ali Sayfiddinov, Marian Schneider, Stefano Schuppli, Marco Scialanga, Andrei Semenov, Kumar Shridhar, Raghav Singhal, Anna Sotnikova, Alexander Sternfeld, Ayush Kumar Tarun, Paul Teiletche, Jannis Vamvas, Xiaozhe Yao, Hao Zhao Alexander Ilic, Ana Klimovic, Andreas Krause, Caglar Gulcehre, David Rosenthal, Elliott Ash, Florian Tramèr, Joost VandeVondele, Livio Veraldi, Martin Rajman, Thomas Schulthess, Torsten Hoefler, Antoine Bosselut, Martin Jaggi, Imanol Schlag
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-17 | 👍 点赞数: 9
摘要:
论文标题:Apertus:面向全球语言环境的开放且合规的大语言模型民主化
中文摘要:
本文提出 Apertus,一个完全开源的大语言模型(LLM)系列,旨在解决当前开源模型生态中的两大系统性缺陷:数据合规性与多语言代表性。与许多仅发布模型权重却缺乏可复现数据流程、忽视内容所有者权利的先前模型不同,Apertus 模型的预训练数据完全来自公开可用资源,并事后遵守 robots.txt 排除规则,同时过滤非许可性、有害以及包含个人身份信息的内容。为降低记忆化风险,我们在预训练中采用 Goldfish 目标函数,在显著抑制对训练数据逐字复现的同时,保持了在下游任务中的良好性能。Apertus 模型还扩展了多语言覆盖能力,基于超过 1800 种语言的约 15 万亿个 token 进行训练,其中约 40% 的预训练数据为非英语内容。该模型发布 80 亿和 700 亿参数两个规模,在多语言基准测试中表现接近或超越现有其他开源模型,达到全开源模型中的先进水平。除了模型权重外,我们还以宽松许可协议公开了整个研发周期中的全部科学成果,包括数据处理脚本、检查点、评测套件和训练代码,从而实现透明审查与进一步扩展。
12. Agentic Software Engineering: Foundational Pillars and a Research
Roadmap
作者: Ahmed E. Hassan, Hao Li, Dayi Lin, Bram Adams, Tse-Hsun Chen, Yutaro Kashiwa, Dong Qiu
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-07 | 👍 点赞数: 7
摘要:
论文标题:代理式软件工程:基础支柱与研究路线图
中文摘要:
代理式软件工程(SE 3.0)标志着一个新时代的到来,在这一时代中,智能代理所承担的任务不再局限于简单的代码生成,而是致力于实现复杂且以目标为导向的软件工程(SE)任务。为了在充分发挥这些新能力的同时确保系统的可信性,我们必须认识到在代理式软件工程时代,软件工程领域内部存在一种根本性的二元结构,即“面向人类的软件工程”(SE for Humans)与“面向代理的软件工程”(SE for Agents),二者相辅相成、互为依存。这种二元性要求我们对软件工程的四大基础支柱——参与者(actors)、流程(processes)、工具(tools)和制品(artifacts)——进行根本性的重构,使其在两种模式下呈现出不同的形态。
为此,我们提出了两个专用的工作平台来支持这一愿景。代理指挥环境(Agent Command Environment, ACE)作为指挥中心,供人类用户组织和指导代理团队的工作,处理诸如“合并就绪包”(Merge-Readiness Packs, MRPs)和“咨询请求包”(Consultation Request Packs, CRPs)等输出成果。代理执行环境(Agent Execution Environment, AEE)则是一个数字工作空间,代理在此执行具体任务,并在面对不确定性或复杂权衡时主动调用人类专家的介入。这种双向协作机制支持由代理发起的人类回调(human-in-the-loop callbacks)和任务移交(handovers),催生出一系列新型的、结构化的工程活动(即新流程),从而重新定义人机协同范式,将实践从“代理编码”提升至真正意义上的“代理式软件工程”。
本文提出了结构化代理式软件工程(Structured Agentic Software Engineering, SASE)的总体愿景,阐述了未来软件工程发展的若干基础支柱,并最终提出一项研究路线图,识别出若干关键挑战与机遇,同时简要探讨这一发展趋势对软件工程教育带来的深远影响。我们的目标并非提供一个终极解决方案,而是构建一个具备结构化术语的概念框架,以激发整个社区的广泛讨论,推动软件工程领域突破传统以人类为中心的范式,迈向一个更加规范、可扩展且值得信赖的代理式未来。
13. RecoWorld: Building Simulated Environments for Agentic Recommender
Systems
作者: Fei Liu, Xinyu Lin, Hanchao Yu, Mingyuan Wu, Jianyu Wang, Qiang Zhang, Zhuokai Zhao, Yinglong Xia, Yao Zhang, Weiwei Li, Mingze Gao, Qifan Wang, Lizhu Zhang, Benyu Zhang, Xiangjun Fan
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-12 | 👍 点赞数: 6
摘要:
论文标题:RecoWorld:面向智能体推荐系统的模拟环境构建
中文摘要:
本文提出 RecoWorld,一种专为智能体推荐系统(agentic recommender systems)设计的模拟环境构建蓝图。此类环境为智能体提供了适当的训练空间,使其能够在不影响真实用户的情况下从错误中学习。RecoWorld 的核心特色在于其双视角架构:一个模拟用户与一个智能体推荐系统进行多轮交互,目标是最大化用户留存。用户模拟器对推荐内容进行评估,动态更新其心理状态,并在察觉到潜在用户流失风险时,生成具有反思性的指导指令。智能体推荐系统则通过融合这些用户指令及其推理轨迹来调整推荐策略,从而形成一个能够主动吸引用户参与的动态反馈闭环。该机制充分利用了现代大语言模型(LLMs)强大的推理能力。我们在模拟器中探索了多种内容表征方式,包括基于文本、多模态以及语义 ID 建模的方法,并探讨了多轮强化学习如何通过迭代交互帮助推荐系统持续优化其策略。此外,RecoWorld 支持多智能体模拟,使创建者能够仿真特定用户群体的行为响应。该框架标志着迈向“用户与智能体协同塑造个性化信息流”的推荐系统的重要第一步。我们展望一种新型交互范式——“用户指导,推荐回应”,实现用户留存与参与度的联合优化。