跳到主要内容
目录

每日论文 - 2025年09月28日

论文总数: 35

1. VCRL: Variance-based Curriculum Reinforcement Learning for Large

Language Models

作者: Guochao Jiang, Wenfeng Feng, Guofeng Quan, Chuzhan Hao, Yuewei Zhang, Guohua Liu, Hao Wang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-24 | 👍 点赞数: 115

摘要:

论文标题:VCRL:基于方差的课程强化学习用于大语言模型

中文摘要:
基于策略的强化学习目前在提升大语言模型(LLM)数学推理能力方面发挥着重要作用。然而,现有的基于 rollout 的强化学习方法(如 GRPO、DAPO、GSPO 等)未能显式地考虑大语言模型对不同难度样本的学习能力,这与人类在数学推理任务中从易到难的认知过程相违背。直观上,我们发现强化学习中的 rollout 组奖励方差在一定程度上反映了当前样本对大语言模型而言的难度:过于简单或过于困难的样本具有较低的方差,而中等难度的样本则表现出较高的方差。基于这一观察,我们提出了 VCRL——一种基于组奖励方差的课程式强化学习框架,能够根据奖励方差动态调控训练样本的难度。在五个数学推理基准数据集和两种大语言模型上的实验结果表明,VCRL 相较于当前主流的大语言模型强化学习基线方法具有显著优势。


2. MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and

Open Resources

作者: Sicong Leng, Jing Wang, Jiaxi Li, Hao Zhang, Zhiqiang Hu, Boqiang Zhang, Yuming Jiang, Hang Zhang, Xin Li, Lidong Bing, Deli Zhao, Wei Lu, Yu Rong, Aixin Sun, Shijian Lu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 98

摘要:

论文标题:MMR1:基于方差感知采样与开放资源的多模态推理能力增强

中文摘要:
大型多模态推理模型已取得快速进展,但其发展受到两个主要限制:一是缺乏公开的大规模、高质量的长链式思维(chain-of-thought, CoT)数据;二是在后训练阶段强化学习(reinforcement learning, RL)算法存在不稳定性。当前RL微调的标准框架——组相对策略优化(Group Relative Policy Optimization, GRPO),在奖励方差较低时容易出现梯度消失问题,从而削弱优化信号并影响收敛效果。本文作出三项贡献:(1)我们提出方差感知采样(Variance-Aware Sampling, VAS),这是一种基于方差促进得分(Variance Promotion Score, VPS)的数据选择策略,结合输出结果的方差与推理路径的多样性,以提升奖励方差,稳定策略优化过程;(2)我们发布了一套大规模、精心筛选的资源,包含约160万条长CoT冷启动数据和约1.5万组RL问答对,并配套提供完整可复现的端到端训练代码库,确保数据在质量、难度和多样性方面的高标准;(3)我们开源了一系列多种规模的多模态推理模型,为学术界建立了标准化的基准模型。在多个数学推理基准上的实验验证了所构建数据集和提出的VAS方法的有效性。全面的消融研究与分析进一步揭示了各组件的贡献。此外,我们在理论上证明了奖励方差是策略梯度期望大小的下界,而VAS正是实现该理论保证的一种实用机制。我们的代码、数据及模型检查点已公开于 https://github.com/LengSicong/MMR1。


3. SciReasoner: Laying the Scientific Reasoning Ground Across Disciplines

作者: Yizhou Wang, Chen Tang, Han Deng, Jiabei Xiao, Jiaqi Liu, Jianyu Wu, Jun Yao, Pengze Li, Encheng Su, Lintao Wang, Guohang Zhuang, Yuchen Ren, Ben Fei, Ming Hu, Xin Chen, Dongzhan Zhou, Junjun He, Xiangyu Yue, Zhenfei Yin, Jiamin Wu, Qihao Zheng, Yuhao Zhou, Huihui Xu, Chenglong Ma, Yan Lu, Wenlong Zhang, Chunfeng Song, Philip Torr, Shixiang Tang, Xinzhu Ma, Wanli Ouyang, Lei Bai

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 94

摘要:

论文标题:SciReasoner:构建跨学科的科学推理基础

中文摘要:
我们提出了一种科学推理基础模型,能够将自然语言与异构的科学表示形式进行对齐。该模型在一个包含2060亿token的语料库上进行了预训练,涵盖科学文本、纯序列以及序列-文本配对数据;随后通过监督微调(SFT)在4000万条指令上进行对齐,并采用退火冷启动自举方法激发长篇幅的思维链推理,结合任务特定奖励塑形的强化学习,从而内化严谨的科学推理能力。模型支持四大类功能,覆盖工作流中的多达103项任务:(i)文本与科学格式之间的忠实转换,(ii)文本/知识提取,(iii)性质预测,(iv)性质分类,(v)无条件与条件序列生成及设计。与专用系统相比,我们的方法扩展了指令覆盖范围,提升了跨领域泛化能力,并增强了输出的准确性。我们详细介绍了数据整理与训练过程,并证明跨学科学习显著增强了知识迁移能力和下游任务的可靠性。该模型、指令微调数据集及评估代码已开源,发布地址为 https://huggingface.co/SciReasonhttps://github.com/open-sciencelab/SciReason。


4. Tree Search for LLM Agent Reinforcement Learning

作者: Yuxiang Ji, Ziyu Ma, Yong Wang, Guanhua Chen, Xiangxiang Chu, Liaoni Wu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 84

摘要:

论文标题:面向大语言模型智能体强化学习的树搜索方法

中文摘要:
近年来,强化学习(Reinforcement Learning, RL)的进展显著提升了大语言模型(Large Language Models, LLMs)作为智能体的能力。在长期、多轮交互的智能体任务中,现有仅依赖结果奖励的方法常常面临监督信号稀疏的问题。为应对这一挑战,本文提出基于树搜索的分组相对策略优化方法(Tree-based Group Relative Policy Optimization, Tree-GRPO),这是一种基于树搜索的分组智能体强化学习方法,其中每个树节点代表一个完整的智能体交互步骤。通过共享共同前缀,树搜索采样能够在固定的token或工具调用预算内显著增加可实现的 rollout 数量。此外,我们发现树状结构的轨迹即使仅使用结果奖励,也能自然地构建出逐步骤的过程监督信号。基于此,Tree-GRPO 在树内和树间两个层次上估计分组相对优势。通过理论分析,我们证明树内层级的分组相对策略优化目标等价于逐步骤的直接偏好学习目标。在11个数据集和3类问答任务上的实验结果表明,所提出的基于树结构的强化学习方法优于基于链式结构的强化学习方法。


5. Seedream 4.0: Toward Next-generation Multimodal Image Generation

作者: Team Seedream, Yunpeng Chen, Yu Gao, Lixue Gong, Meng Guo, Qiushan Guo, Zhiyao Guo, Xiaoxia Hou, Weilin Huang, Yixuan Huang, Xiaowen Jian, Huafeng Kuang, Zhichao Lai, Fanshi Li, Liang Li, Xiaochen Lian, Chao Liao, Liyang Liu, Wei Liu, Yanzuo Lu, Zhengxiong Luo, Tongtong Ou, Guang Shi, Yichun Shi, Shiqi Sun, Yu Tian, Zhi Tian, Peng Wang, Rui Wang, Xun Wang, Ye Wang, Guofeng Wu, Jie Wu, Wenxu Wu, Yonghui Wu, Xin Xia, Xuefeng Xiao, Shuang Xu, Xin Yan, Ceyuan Yang, Jianchao Yang, Zhonghua Zhai, Chenlin Zhang, Heng Zhang, Qi Zhang, Xinyu Zhang, Yuwei Zhang, Shijia Zhao, Wenliang Zhao, Wenjia Zhu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-24 | 👍 点赞数: 69

摘要:

论文标题:Seedream 4.0:迈向下一代多模态图像生成

中文摘要:
本文提出 Seedream 4.0,一种高效且高性能的多模态图像生成系统,能够在统一框架下实现文本到图像(T2I)合成、图像编辑以及多图像组合。我们设计了一种高效的扩散变换器(diffusion transformer),并配备了一个功能强大的变分自编码器(VAE),可显著减少图像 token 的数量。这不仅提升了模型训练效率,还使其能够快速生成原生高分辨率图像(例如 1K–4K)。Seedream 4.0 在涵盖多种分类体系和知识导向概念的数十亿文本-图像对数据上进行了预训练。通过覆盖数百个垂直场景的全面数据采集,结合优化的训练策略,确保了大规模训练的稳定性,并具备出色的泛化能力。通过引入精心微调的视觉语言模型(VLM),我们实现了面向 T2I 和图像编辑任务的多模态后训练(multi-modal post-training),联合优化两项任务。在推理加速方面,我们融合了对抗性蒸馏、分布匹配、量化技术以及推测解码(speculative decoding),在不依赖大语言模型/视觉语言模型作为位置编码(PE)模型的情况下,生成一张 2K 图像的推理时间最快可达 1.8 秒。综合评估结果表明,Seedream 4.0 在文本到图像生成和多模态图像编辑任务上均达到了业界领先水平。尤其在复杂任务中展现出卓越的多模态能力,包括精确的图像编辑、上下文推理、多图像参考支持,以及多张图像输出生成。该系统将传统的 T2I 模型拓展为更具交互性和多维度的创作工具,推动了生成式人工智能在创意表达与专业应用领域的边界。Seedream 4.0 现已可通过 https://www.volcengine.com/experience/ark?launch=seedream 访问体验。


6. Hunyuan3D-Omni: A Unified Framework for Controllable Generation of 3D

Assets

作者: Team Hunyuan3D, Bowen Zhang, Chunchao Guo, Haolin Liu, Hongyu Yan, Huiwen Shi, Jingwei Huang, Junlin Yu, Kunhong Li, Linus, Penghao Wang, Qingxiang Lin, Sicong Liu, Xianghui Yang, Yixuan Tang, Yunfei Zhao, Zeqiang Lai, Zhihao Liang, Zibo Zhao

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 36

摘要:

论文标题:Hunyuan3D-Omni:一种用于可控生成三维资产的统一框架

中文摘要:
近年来,原生三维生成模型的进展显著加快了游戏、电影和设计领域的资产创建过程。然而,现有大多数方法仍主要依赖图像或文本作为条件输入,缺乏细粒度的跨模态控制能力,限制了生成过程的可控性及实际应用。为弥补这一不足,我们提出了Hunyuan3D-Omni——一个基于Hunyuan3D 2.1构建的、支持细粒度可控三维资产生成的统一框架。除了图像外,Hunyuan3D-Omni还支持点云、体素、边界框以及骨骼姿态先验等多种条件信号输入,从而实现对几何形状、拓扑结构和姿态的精确控制。与为不同模态设计独立输出头的传统方法不同,我们的模型在单一的跨模态架构中实现了所有输入信号的统一处理。我们采用一种渐进式、难度感知的采样策略进行训练:在每个训练样本中仅选择一种控制模态,并倾向于更多地采样较难的信号(如骨骼姿态),同时降低简单信号(如点云)的采样权重。该策略有助于提升多模态融合的鲁棒性,并能优雅地处理输入缺失的情况。实验结果表明,这些额外的控制机制不仅提高了生成精度,支持几何感知的变换操作,还增强了在实际生产流程中的稳健性和可用性。


7. AutoIntent: AutoML for Text Classification

作者: Ilya Alekseev, Roman Solomatin, Darina Rustamova, Denis Kuznetsov

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 29

摘要:

论文标题:AutoIntent:面向文本分类的自动化机器学习

中文摘要:
AutoIntent 是一个用于文本分类任务的自动化机器学习工具。与现有解决方案不同,AutoIntent 提供了端到端的自动化功能,包括嵌入模型选择、分类器优化以及决策阈值调优,且全部集成于一个模块化、类似 scikit-learn 的接口中。该框架设计支持多标签分类和超出范围(out-of-scope)意图检测。在标准的意图分类数据集上,AutoIntent 表现出优于现有自动化机器学习工具的性能,同时使用户能够有效平衡模型效果与资源消耗。


8. TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them

作者: Yidong Wang, Yunze Song, Tingyuan Zhu, Xuanwang Zhang, Zhuohao Yu, Hao Chen, Chiyu Song, Qiufeng Wang, Cunxiang Wang, Zhen Wu, Xinyu Dai, Yue Zhang, Wei Ye, Shikun Zhang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 27

摘要:

论文标题:TrustJudge:大模型作为评判者的不一致性及其缓解方法

中文摘要:
将大语言模型(Large Language Models, LLMs)用作自动评估工具(即“LLM-as-a-judge”)的做法,暴露出当前评估框架中存在的严重不一致性问题。本文识别出两类根本性的不一致现象:(1)评分比较不一致性,即在成对比较中得分较低的回复反而优于得分较高的回复;(2)成对传递性不一致性,表现为出现循环偏好链(如 A > B > C > A)以及等价关系矛盾(如 A = B = C ≠ A)。我们认为,这些问题源于离散评分系统中的信息丢失,以及成对比较过程中对平局判断的模糊性。为此,我们提出了 TrustJudge——一种概率化评估框架,通过两项关键技术改进现有方法:1)分布敏感评分机制,从离散评分的概率分布中计算连续期望值,保留信息熵以实现更精确的打分;2)基于似然的聚合机制,利用双向偏好概率或困惑度(perplexity)来解决传递性违背问题。我们还形式化地分析了当前 LLM-as-a-judge 框架的理论局限,并展示了 TrustJudge 如何克服这些限制。在使用 Llama-3.1-70B-Instruct 作为评判模型并基于我们构建的数据集进行评估时,TrustJudge 将评分比较不一致性降低了 8.43%(从 23.32% 降至 14.89%),将成对传递性不一致性降低了 10.82%(从 15.22% 降至 4.40%),同时保持了更高的评估准确性。本研究首次对 LLM-as-a-judge 范式中的评估框架不一致性进行了系统性分析,提供了兼具理论深度与实践价值的解决方案,从而实现更可靠的自动化评估。该框架在多种模型架构和规模下均表现出稳定提升,无需额外训练或人工标注即可提升 LLM 评估的可信度。代码地址:https://github.com/TrustJudge/TrustJudge。


9. Thinking Augmented Pre-training

作者: Liang Wang, Nan Yang, Shaohan Huang, Li Dong, Furu Wei

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-24 | 👍 点赞数: 22

摘要:

论文标题:思维增强预训练

中文摘要:
本文提出了一种简单且可扩展的方法,通过在现有文本数据中增补“思维轨迹”(thinking trajectories)来提升大语言模型(LLM)训练的数据效率。近年来,大语言模型预训练所需的计算资源正以前所未有的速度增长,而高质量训练数据的获取却依然有限。因此,如何最大化利用已有数据成为一项重要的研究挑战。一个主要难点在于,在模型容量固定的情况下,某些高质量token难以被有效学习,因为单个token背后的推理逻辑可能极为复杂和深层。为解决这一问题,我们提出了“思维增强预训练”(Thinking augmented Pre-Training, TPT),这是一种通用方法,通过自动生动生成的思维轨迹来增强原始文本数据。这种数据增强方式不仅有效增加了训练数据量,还通过逐步推理与分解过程,使原本难以学习的高质量token变得更易被模型掌握。我们在多种训练配置下应用了TPT方法,累计训练量达1000亿token,涵盖数据受限和数据充足两种情况下的预训练,以及从强大的开源检查点出发的中期训练。实验结果表明,该方法在不同规模和架构的模型上均显著提升了大语言模型的性能。值得注意的是,TPT将大语言模型预训练的数据效率提高了3倍。对于一个30亿参数的模型,其在多个高难度推理基准测试上的训练后性能提升了超过10%。


10. CE-GPPO: Controlling Entropy via Gradient-Preserving Clipping Policy

Optimization in Reinforcement Learning

作者: Zhenpeng Su, Leiyu Pan, Minxuan Lv, Yuntao Li, Wenping Hu, Fuzheng Zhang, Kun Gai, Guorui Zhou

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 17

摘要:

论文标题:CE-GPPO:通过梯度保持裁剪策略优化实现强化学习中的熵控制

中文摘要:
强化学习(Reinforcement Learning, RL)已成为优化大语言模型(Large Language Models, LLMs)以处理复杂推理任务的一种强大范式。该过程中的一个核心挑战在于对策略熵的管理,因为策略熵反映了训练过程中探索与利用之间的平衡。现有方法(如近端策略优化PPO及其变体)由于采用裁剪机制,会丢弃来自低概率词元(token)的宝贵梯度信号。我们系统地分析了熵的动态演化过程,揭示出这些被裁剪的词元在调节熵演变过程中扮演着关键但被忽视的角色。为此,我们提出了“通过梯度保持的策略优化实现熵控制”(Controlling Entropy via Gradient-Preserving Policy Optimization, CE-GPPO),这是一种新颖的算法,能够以温和且有界的方式将原始PPO中被裁剪词元的梯度信息重新引入优化过程。通过控制裁剪区间之外词元的梯度幅度,CE-GPPO 能够有效实现探索与利用之间的权衡。我们提供了理论分析和实验证据,表明 CE-GPPO 能有效缓解熵的不稳定性。在多个数学推理基准上的大量实验结果表明,CE-GPPO 在不同规模的模型上均持续优于强基线方法。


11. Residual Off-Policy RL for Finetuning Behavior Cloning Policies

作者: Lars Ankile, Zhenyu Jiang, Rocky Duan, Guanya Shi, Pieter Abbeel, Anusha Nagabandi

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-23 | 👍 点赞数: 17

摘要:

论文标题:用于微调行为克隆策略的残差离策略强化学习

中文摘要:
近年来,行为克隆(Behavior Cloning, BC)在实现高性能的视觉-运动控制策略方面取得了显著进展。然而,这类方法受限于人类示范数据的质量、数据采集所需的人工成本,以及离线数据规模增大后性能提升逐渐饱和的问题。相比之下,强化学习(Reinforcement Learning, RL)通过智能体与环境的自主交互进行训练,在多个领域中已展现出卓越的性能。但直接在真实机器人上训练RL策略仍面临诸多挑战,包括样本效率低下、安全性问题,以及在长视野任务中难以从稀疏奖励信号中学习,尤其是在高自由度(high-degree-of-freedom, DoF)系统中尤为突出。本文提出一种结合BC与RL优势的框架,采用残差学习的方式实现两者的融合。我们的方法将BC策略作为黑箱基础策略,利用样本高效的离策略RL来学习轻量级的逐歩残差修正。实验表明,该方法仅需稀疏的二元奖励信号,即可在仿真环境和真实世界中有效提升高自由度系统的操作策略性能。特别地,据我们所知,本文首次成功实现了在具有灵巧手的人形机器人上的真实世界强化学习训练。实验结果在多种基于视觉的任务中达到了当前最先进的性能,为强化学习在现实场景中的实际部署提供了一条可行的技术路径。
项目网站:https://residual-offpolicy-rl.github.io


12. CHARM: Control-point-based 3D Anime Hairstyle Auto-Regressive Modeling

作者: Yuze He, Yanning Zhou, Wang Zhao, Jingwen Ye, Yushi Bai, Kaiwen Xiao, Yong-Jin Liu, Zhongqian Sun, Wei Yang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 15

摘要:

论文标题:CHARM:基于控制点的3D动漫发型自回归建模

中文摘要:
本文提出CHARM,一种新颖的参数化表示方法与生成框架,用于动漫发型建模。传统头发建模方法通常基于发丝或体素表示,专注于真实感发型,而动漫发型具有高度风格化、分段结构化的几何特征,对现有技术提出了挑战。现有方法多依赖密集网格建模或手工设计的样条曲线,导致编辑效率低下,难以支持可扩展的学习任务。CHARM引入了一种紧凑且可逆的基于控制点的参数化表示方法:每片发片(hair card)由一系列控制点表示,每个控制点仅用五个几何参数进行编码。这种高效且精确的表示方式既支持艺术家友好的设计,也适用于基于学习的生成。在此表示基础上,CHARM构建了一个自回归生成框架,能够从输入图像或点云中有效生成动漫发型。通过将动漫发型视为一种序列化的“发型语言”,我们的自回归Transformer模型能够同时捕捉局部几何细节与整体发型拓扑结构,从而实现高保真度的动漫发型生成。为了支持动漫发型生成模型的训练与评估,我们构建了AnimeHair数据集,包含37,000个高质量的动漫发型样本,每个样本均提供分离的发片结构和处理后的网格数据。大量实验表明,CHARM在重建精度与生成质量方面均达到最先进的水平,为动漫发型建模提供了一种表达力强且可扩展的解决方案。项目主页:https://hyzcluster.github.io/charm/


13. Recon-Act: A Self-Evolving Multi-Agent Browser-Use System via Web

Reconnaissance, Tool Generation, and Task Execution

作者: Kaiwen He, Zhiwei Wang, Chenyi Zhuang, Jinjie Gu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 15

摘要:

论文标题:Recon-Act:一种通过网页侦察、工具生成与任务执行实现自我演化的多智能体浏览器使用系统

中文摘要:
近年来,多模态模型取得了显著进展,为智能化浏览器操作代理的发展奠定了基础。然而,在现实网页环境中执行多轮次、长视野的任务时,现有代理仍面临动作序列混乱以及执行过程中试错过多的问题。本文提出 Recon-Act,一种基于“侦察-行动”(Reconnaissance-Action)行为范式的自演化多智能体框架。该系统由侦察团队(Reconnaissance Team)与行动团队(Action Team)组成:前者负责对比分析与工具生成,后者负责意图分解、工具调度与执行。侦察团队通过对比失败轨迹与成功轨迹,推断出修正策略,并将其抽象为统一形式的广义工具(generalized tools),这些工具可表现为提示信息或基于规则的代码,并实时注册至工具库中。行动团队则利用这些针对性工具重新进行推理与执行,从而构建了一个涵盖数据—工具—行动—反馈的闭环训练流程。按照本文提出的六级实现路线图,我们目前已实现第三级(仅需有限的人工介入)。借助侦察过程所获得的广义工具,Recon-Act 显著提升了对未见过网站的适应能力以及在长视野任务上的可解性,在具有挑战性的 VisualWebArena 数据集上达到了最先进的性能水平。


14. Does FLUX Already Know How to Perform Physically Plausible Image

Composition?

作者: Shilin Lu, Zhuming Lian, Zihan Zhou, Shaocong Zhang, Chen Zhao, Adams Wai-Kin Kong

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 13

摘要:

论文标题:FLUX 是否已经具备执行物理上合理的图像合成的能力?

中文摘要:
图像合成旨在将用户指定的物体无缝地融入新场景中,但现有模型在处理复杂光照(如准确的阴影、水面反射)以及多样化、高分辨率输入时仍面临挑战。现代文本到图像扩散模型(例如 SD3.5、FLUX)已编码了重要的物理规律和分辨率先验知识,然而缺乏一种无需依赖潜在空间反演(latent inversion)或脆弱的注意力编辑(attention surgery)即可充分释放这些先验的框架——前者常导致物体姿态与上下文不匹配,后者则鲁棒性较差。为此,我们提出 SHINE,一种无需训练的高质量图像合成框架,实现“无缝、高保真插入且误差抑制”。SHINE 引入了流形引导的锚点损失(manifold-steered anchor loss),利用预训练的定制化适配器(如 IP-Adapter)来引导潜在表示,在保持主体忠实还原的同时保护背景完整性。此外,我们提出了退化抑制引导(degradation-suppression guidance)和自适应背景融合机制,进一步消除低质量输出和可见拼接痕迹。为弥补当前缺乏严格评测基准的问题,我们构建了 ComplexCompo 数据集,涵盖多种分辨率,并包含低光照、强照明、复杂阴影和反射表面等具有挑战性的条件。在 ComplexCompo 和 DreamEditBench 上的实验表明,SHINE 在标准指标(如 DINOv2)以及与人类感知对齐的评分(如 DreamSim、ImageReward、VisionReward)上均达到最先进的性能。代码与评测基准将在论文发表后公开发布。


15. Understanding the Thinking Process of Reasoning Models: A Perspective

from Schoenfeld's Episode Theory

作者: Ming Li, Nan Zhang, Chenrui Fan, Hong Jiao, Yanbin Fu, Sydney Peters, Qingshu Xu, Robert Lissitz, Tianyi Zhou

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-18 | 👍 点赞数: 13

摘要:

论文标题:理解推理模型的思维过程:基于Schoenfeld情景理论的视角

中文摘要:
尽管大推理模型(LRMs)能够生成 lengthy 的思维链推理过程,但我们仍缺乏一个系统性的框架来理解这些思维内容的结构。本文提出一种新方法,将Schoenfeld的情景理论——一种用于人类数学问题解决的经典认知框架——应用于分析LRMs的推理轨迹。我们对模型在数学问题求解中生成的数千个句子和段落进行了标注,使用了七种认知标签(例如:规划(Plan)、执行(Implement)、验证(Verify))。由此构建了首个面向机器推理细粒度分析的公开基准数据集,包含大规模标注语料库以及详细的标注指南。初步分析揭示了LRM推理中的若干显著模式,例如不同认知状态之间的转换动态。该框架为解读LRM的认知过程提供了理论基础,并为构建更具可控性和透明性的推理系统奠定了研究基础。


16. UserRL: Training Interactive User-Centric Agent via Reinforcement

Learning

作者: Cheng Qian, Zuxin Liu, Akshara Prabhakar, Jielin Qiu, Zhiwei Liu, Haolin Chen, Shirley Kokane, Heng Ji, Weiran Yao, Shelby Heinecke, Silvio Savarese, Caiming Xiong, Huan Wang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-24 | 👍 点赞数: 10

摘要:

论文标题:UserRL:通过强化学习训练以用户为中心的交互式智能体

中文摘要:
强化学习(Reinforcement Learning, RL)在训练超越静态基准、能够进行动态多轮交互的智能体模型方面展现出巨大潜力。然而,这类智能体的最终价值在于其辅助用户的能力,而实际用户交互中的多样性与动态性为此带来了严峻挑战。本文提出UserRL——一种统一的框架,通过标准化的gym环境结合模拟用户,实现对以用户为中心能力的训练与评估。我们系统地调整回合级奖励分配与轨迹级评分计算方式,分析不同设定在GRPO算法下的学习效果。在Qwen3系列模型上的实验揭示了三个关键发现:(i)监督微调(SFT)的冷启动对于激活初始交互能力并支持持续的强化学习提升至关重要;(ii)精心设计的轨迹评分机制能够实现更高效且有效的多轮交互;(iii)尽管更强的模拟用户(如GPT-4o)有助于训练,但开源模拟器(如Qwen3-32B)仍是成本可控且具备迁移性的可行选择。综上,这些结果表明,奖励塑形的精细设计与模拟用户的选择,与模型规模同等重要,并确立了UserRL作为构建鲁棒的以用户为中心智能体模型的实用路径。所有代码与数据均已公开,供后续研究使用。


17. SD3.5-Flash: Distribution-Guided Distillation of Generative Flows

作者: Hmrishav Bandyopadhyay, Rahim Entezari, Jim Scott, Reshinth Adithyan, Yi-Zhe Song, Varun Jampani

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 9

摘要:

论文标题:SD3.5-Flash:面向生成流的分布引导蒸馏

中文摘要:
我们提出 SD3.5-Flash,一种高效的少步蒸馏框架,可将高质量图像生成带入普通消费级设备。我们的方法通过一种专为少步生成定制的重构后分布匹配目标,对计算成本高昂的修正流模型(rectified flow models)进行蒸馏。我们引入了两项关键技术:用于降低梯度噪声的“时间步共享”(timestep sharing),以及提升提示词对齐能力的“分步时间步微调”(split-timestep fine-tuning)。结合文本编码器重构和专用量化等全面的流水线优化措施,该系统能够在不同硬件配置下实现快速生成与内存高效部署。这使得从手机到台式机的各类设备均可平等访问先进生成能力。通过包括大规模用户研究在内的广泛评估,我们证明 SD3.5-Flash 在各种少步方法中始终表现领先,使先进的生成式人工智能真正具备实际部署的可行性。


18. ScaleDiff: Scaling Difficult Problems for Advanced Mathematical

Reasoning

作者: Qizhi Pei, Zhuoshi Pan, Honglin Lin, Xin Gao, Yu Li, Zinan Tang, Conghui He, Rui Yan, Lijun Wu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 9

摘要:

论文标题:ScaleDiff:面向高级数学推理的难题规模化生成方法

中文摘要:
大型推理模型(LRMs)在复杂问题求解方面展现出令人印象深刻的能力,通常得益于在高难度数学问题上的训练,以激发深层次的推理能力。近期研究尝试通过提示闭源模型或大规模开源模型,从种子数据或内在数学概念中自动生成数学题目。然而,这些方法在扩展性方面仍面临挑战,主要受限于高昂的计算/API 成本、复杂的提示设计,以及所生成题目难度不足等问题。为克服上述局限,我们提出了 ScaleDiff——一种简单而高效的流水线框架,旨在规模化生成高难度数学问题。我们利用一个自适应思维模型,仅需一次前向推理即可高效地从现有数据集中识别出困难题目,该模型能够感知题目难度,并自动在“需要思考”和“无需思考”两种模式之间切换。基于筛选出的难题数据,我们训练了一个专门的难题生成器(DiffGen-8B),可大规模生成新的高难度问题,从而避免了逐例提示带来的复杂性与高昂 API 成本。在 ScaleDiff-Math 数据集上微调 Qwen2.5-Math-7B-Instruct 模型后,相比原始数据集性能显著提升 11.3%,并在 AIME'24、AIME'25、HMMT-Feb'25、BRUMO'25 和 MATH500 上取得了 65.9% 的平均准确率,优于 OpenThinker3 等近期先进的大型推理模型。值得注意的是,本方法仅使用成本较低的 Qwen3-8B 模型作为教师模型,表明该框架能够在不依赖更大、更昂贵教师模型的前提下,有效迁移高级推理能力。此外,我们观察到随着高难度问题数量的增加,模型在困难基准测试上的性能呈现出明显的规模扩展效应。代码地址:https://github.com/QizhiPei/ScaleDiff。


19. V-GameGym: Visual Game Generation for Code Large Language Models

作者: Wei Zhang, Jack Yang, Renshuai Tao, Lingzheng Chai, Shawn Guo, Jiajun Wu, Xiaoming Chen, Ganqu Cui, Ning Ding, Xander Xu, Hu Wei, Bowen Zhou

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-24 | 👍 点赞数: 9

摘要:

论文标题:V-GameGym:面向代码大语言模型的视觉游戏生成基准

中文摘要:
代码大语言模型在编程任务中已展现出卓越的能力,然而当前的基准测试主要集中在单一模态上,缺乏对视觉游戏开发场景的关注。大多数现有的与代码相关的基准仅评估语法正确性和执行准确性,忽视了可玩性、视觉美感和用户参与度等对实际应用至关重要的游戏特有指标。为弥合现有大语言模型在算法求解与竞赛级编程能力方面与真实游戏开发综合需求之间的差距,本文提出了 V-GameGym——一个包含 2,219 个高质量样本的综合性基准,这些样本涵盖从真实代码仓库中提取的 100 个主题聚类,并采用一种新颖的基于聚类的数据筛选方法,以确保数据集的多样性与结构完整性。此外,我们提出了一种多模态评估框架,构建了一个基于完整 UI 沙箱环境的自动化、由大语言模型驱动的视觉代码生成评估流水线。我们的广泛分析表明,V-GameGym 能有效连接代码生成准确性与实际游戏开发流程之间的鸿沟,为可视化编程及交互元素生成提供了可量化的质量评估指标。


20. Quantized Visual Geometry Grounded Transformer

作者: Weilun Feng, Haotong Qin, Mingqiang Wu, Chuanguang Yang, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 8

摘要:

论文标题:量化视觉几何定位Transformer

中文摘要:
以视觉几何定位Transformer(Visual Geometry Grounded Transformers, VGGTs)为代表的基于学习的三维重建模型,借助大规模Transformer结构取得了显著进展。然而,其高昂的计算和内存开销严重制约了在实际场景中的部署应用。训练后量化(Post-Training Quantization, PTQ)已成为压缩和加速模型的常用手段。然而,我们通过实验发现,PTQ在压缩十亿参数规模的VGGTs时面临独特挑战:数据无关的特殊标记(special tokens)导致激活分布呈现重尾特性,而三维数据的多视角特性使得校准样本的选择极不稳定。本文提出了首个面向VGGTs的量化框架——QuantVGGT。该框架主要包含两项关键技术贡献:第一,提出双平滑细粒度量化(Dual-Smoothed Fine-Grained Quantization),通过引入全局前置的Hadamard旋转与局部后置的通道平滑机制,有效缓解激活分布的重尾现象及通道间方差波动;第二,设计噪声过滤的多样性采样方法(Noise-Filtered Diverse Sampling),利用深层网络的统计信息过滤异常样本,并构建帧感知的多样化校准簇,以确保量化范围的稳定性。大量实验表明,QuantVGGT在不同基准任务和比特宽度下均达到了当前最优的性能,显著优于此前最先进的通用量化方法。特别地,我们的4比特QuantVGGT在保持完整精度模型98%以上重建精度的同时,实现了3.7倍的内存压缩和2.5倍的实际硬件推理加速,充分体现了QuantVGGT在资源受限场景下的巨大优势与实用价值。代码已开源:https://github.com/wlfeng0509/QuantVGGT。


21. SceneWeaver: All-in-One 3D Scene Synthesis with an Extensible and

Self-Reflective Agent

作者: Yandan Yang, Baoxiong Jia, Shujie Zhang, Siyuan Huang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-24 | 👍 点赞数: 8

摘要:

论文标题:SceneWeaver:基于可扩展且具备自省能力的智能体实现一体化3D场景合成

中文摘要:
随着具身人工智能(Embodied AI)的发展,室内场景合成变得日益重要,该领域需要不仅视觉上逼真,而且物理上合理、功能上多样的三维环境。尽管近期方法在视觉保真度方面取得了进展,但它们通常局限于固定的场景类别,缺乏足够的物体层级细节和物理一致性,并且难以满足复杂的用户指令。本文提出SceneWeaver——一种具备自省能力的智能体框架,通过基于工具的迭代优化机制,统一了多种场景合成范式。SceneWeaver的核心是一个基于语言模型的规划器,能够从一系列可扩展的场景生成工具中进行选择,这些工具涵盖数据驱动的生成模型、基于视觉的方法以及基于大语言模型(LLM)的技术,并在物理合理性、视觉真实感以及与用户输入的语义对齐等方面进行自我评估以提供指导。这种闭环的“推理-行动-反思”设计使智能体能够识别语义不一致问题,调用针对性工具,并在多次迭代中持续优化场景。在常见及开放词汇范围内的房间类型上开展的大量实验表明,SceneWeaver不仅在物理性、视觉质量和语义对齐等指标上优于先前方法,还能有效泛化到包含多样化指令的复杂场景,推动了通用型3D环境生成的发展。项目网站:https://scene-weaver.github.io/。


22. BESPOKE: Benchmark for Search-Augmented Large Language Model

Personalization via Diagnostic Feedback

作者: Hyunseo Kim, Sangam Lee, Kwangwook Seo, Dongha Lee

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 6

摘要:

论文标题:BESPOKE:基于诊断反馈的检索增强型大语言模型个性化评测基准

中文摘要:
检索增强型大语言模型(LLMs)通过将信息检索与文本生成相结合,提升了信息获取任务的效果,相比传统搜索系统显著降低了用户的认知负担。然而,现有模型仍难以充分满足多样化的用户需求,这要求系统能够识别同一查询在不同用户之间的意图差异,并以用户偏好的形式提供信息。尽管近期如ChatGPT和Gemini等系统尝试利用用户历史记录实现个性化,但针对此类个性化能力的系统性评估仍鲜有研究。为填补这一空白,我们提出了BESPOKE——一个面向检索增强型大语言模型个性化能力的、具有现实代表性的评测基准。BESPOKE通过直接收集真实人类的对话与搜索历史,确保其现实性;同时通过为模型回复配备细粒度的偏好评分与诊断性反馈,实现可解释的分析能力。该基准的构建依赖于长期、深度参与的人工标注过程:标注人员贡献自身的交互历史,撰写包含详细信息需求的查询,并对模型回复进行评分与诊断反馈。基于BESPOKE,我们开展了系统性分析,揭示了信息获取任务中有效个性化所需的关键要素,为细粒度评估个性化的检索增强型大语言模型奠定了基础。我们的代码与数据已公开发布于 https://augustinlib.github.io/BESPOKE/。


23. Behind RoPE: How Does Causal Mask Encode Positional Information?

作者: Junu Kim, Xiao Liu, Zhenghao Lin, Lei Ji, Yeyun Gong, Edward Choi

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 6

摘要:

论文标题:深入探究RoPE:因果掩码如何编码位置信息?

中文摘要: 尽管诸如RoPE之类的显式位置编码是Transformer解码器中位置信息的主要来源,但因果掩码(causal mask)同样提供了位置信息。在本研究中,我们证明了即使在没有参数或输入中不存在因果依赖的情况下,因果掩码也能在注意力分数中诱导出依赖于位置的模式。我们的理论分析表明,这种诱导出的注意力模式倾向于偏好邻近的查询-键对,这与常见的位置编码行为相似。实证分析进一步证实,训练后的模型确实表现出相同的行为,且学习到的参数会进一步增强这些模式。值得注意的是,我们发现因果掩码与RoPE之间的相互作用会将RoPE原本的相对注意力分数模式扭曲为非相对的形式。我们在多种现代大语言模型中一致观察到这一现象,表明在考虑位置信息来源时,因果掩码应与显式位置编码一同被重视。


24. When Judgment Becomes Noise: How Design Failures in LLM Judge Benchmarks

Silently Undermine Validity

作者: Benjamin Feuer, Chiung-Yi Tseng, Astitwa Sarthak Lathe, Oussama Elachqar, John P Dickerson

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-24 | 👍 点赞数: 6

摘要:

论文标题:当判断变为噪声:大语言模型裁判基准中的设计缺陷如何悄然削弱有效性

中文摘要:
大语言模型(LLM)裁判型基准正被 increasingly 用于评估复杂模型行为,但其设计引入了传统基于真实标签的基准所不具备的失效模式。我们认为,若缺乏明确的评估目标和可验证的构建方式,此类基准产生的排名可能看似高度可信,实则很大程度上仅为噪声。为此,我们提出两种机制来诊断这些问题。架构遵循度(schematic adherence)用于量化裁判的整体判决中有多少比例可由明确的评估架构解释,从而揭示当裁判偏离自身评分标准时所产生的未解释方差;心理测量有效性(psychometric validity)则综合内部一致性和区分效度信号,以衡量任何一次基准测试中无法消除的不确定性。我们将这些工具应用于 Arena-Hard Auto 基准,发现多个主流裁判模型存在严重的架构不一致与因子坍缩问题:例如,DeepSeek-R1-32B 的未解释方差超过90%,而大多数评判维度之间的因子相关性高达0.93以上。此外,我们还发现 Arena-Hard Auto 所采用的ELO风格聚合方法会进一步压缩并掩盖真实的排名不确定性。研究结果凸显了若干关键的设计缺陷,这些缺陷严重损害了基准的有效性,并提出了构建更具明确范围、注重可靠性的LLM裁判型基准的可操作原则。我们的代码已公开,地址为 https://anonymous.4open.science/r/judgment-to-noise-947D/README.md


25. OverLayBench: A Benchmark for Layout-to-Image Generation with Dense

Overlaps

作者: Bingnan Li, Chen-Yu Wang, Haiyang Xu, Xiang Zhang, Ethan Armand, Divyansh Srivastava, Xiaojun Shan, Zeyuan Chen, Jianwen Xie, Zhuowen Tu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-23 | 👍 点赞数: 6

摘要:

论文标题:OverLayBench:一种用于密集重叠场景下布局到图像生成的基准

中文摘要:
尽管布局到图像生成领域取得了持续进展,但现有方法在处理边界框之间存在显著重叠的布局时仍面临困难。我们识别出两大主要挑战:(1)大面积的重叠区域;(2)语义差异较小的重叠实例。通过定性示例和定量分析,我们展示了这些因素如何导致生成质量下降。为了系统评估这一问题,我们提出了OverLayScore——一种新颖的指标,用于量化边界框重叠的复杂程度。我们的分析表明,现有的基准数据集偏向于OverLayScore值较低的简单案例,限制了其在更具挑战性条件下评估模型性能的有效性。为弥补这一差距,我们推出了OverLayBench,这是一个包含高质量标注的新基准,覆盖不同层次的OverLayScore,并具有均衡的分布。作为提升复杂重叠场景下生成性能的初步尝试,我们还提出了CreatiLayout-AM,该模型在一个精心筛选的非完整掩码(amodal mask)数据集上进行了微调。我们的各项贡献共同为现实且复杂场景下的鲁棒性布局到图像生成奠定了基础。项目链接:https://mlpc-ucsd.github.io/OverLayBench。


26. Interactive Recommendation Agent with Active User Commands

作者: Jiakai Tang, Yujie Luo, Xunke Xi, Fei Sun, Xueyang Feng, Sunhao Dai, Chao Yi, Dian Chen, Zhujin Gao, Yang Li, Xu Chen, Wen Chen, Jian Wu, Yuning Jiang, Bo Zheng

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 5

摘要:

论文标题:具有主动用户指令的交互式推荐代理

中文摘要:
传统的推荐系统依赖于被动的反馈机制,限制用户只能进行简单的选择,例如“喜欢”或“不喜欢”。然而,这类粗粒度的信号难以捕捉用户行为背后的细微动机与真实意图。相应地,现有系统也无法识别究竟是哪些具体的物品属性导致了用户的满意或不满,从而导致用户偏好建模不准确。这些根本性局限造成了用户意图与系统理解之间持续存在的鸿沟,最终降低了用户满意度并削弱了系统的有效性。

为解决上述问题,我们提出了“交互式推荐信息流”(Interactive Recommendation Feed, IRF),这是一种开创性的范式,能够在主流推荐信息流中支持自然语言指令的输入。与传统系统将用户局限于被动的隐式行为影响不同,IRF通过实时的自然语言指令,赋予用户对推荐策略的主动、显式控制能力。为支撑这一范式,我们设计了RecBot——一种双代理架构:其中解析代理(Parser Agent)将自然语言表达转化为结构化的用户偏好,而规划代理(Planner Agent)则动态协调自适应的工具链,实现推荐策略的即时调整。为了支持实际部署,我们采用基于仿真的知识蒸馏方法,在保持强大推理能力的同时实现高效的运行性能。通过大量离线实验以及长期在线实验验证,RecBot在用户满意度和业务指标方面均展现出显著提升。


27. CompLLM: Compression for Long Context Q&A

作者: Gabriele Berton, Jayakrishnan Unnikrishnan, Son Tran, Mubarak Shah

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-23 | 👍 点赞数: 5

摘要:

论文标题:CompLLM:面向长上下文问答的压缩方法

中文摘要:
大型语言模型(Large Language Models, LLMs)在处理长上下文时面临显著的计算挑战,这源于自注意力机制的平方复杂度。尽管软性上下文压缩方法(即将输入文本映射为更小的潜在表示)已展现出一定潜力,但其在实际应用中的采纳仍受限。现有技术通常将整个上下文作为一个整体进行压缩,导致压缩过程同样具有平方复杂度,并且无法在上下文重叠的不同查询之间复用计算结果。本文提出 CompLLM,一种面向实际部署的软压缩技术。与整体处理上下文不同,CompLLM 将上下文划分为多个片段,并对每个片段独立进行压缩。这一简单的设计带来了三个关键特性:高效性,压缩步骤的时间复杂度与上下文长度呈线性关系;可扩展性,使得在短序列(例如 1k token)上训练的模型能够推广到长达 100k token 的上下文;以及可复用性,允许将压缩后的片段缓存并在不同查询间重复使用。实验结果表明,在实现 2 倍压缩率的情况下,CompLLM 在长上下文场景中可将首词元生成时间(Time To First Token, TTFT)加速最高达 4 倍,并将键值缓存(KV cache)大小减少 50%。此外,CompLLM 的性能与使用未压缩上下文的情况相当,甚至在极长序列上表现更优,验证了其有效性与实用价值。


28. MOSS-ChatV: Reinforcement Learning with Process Reasoning Reward for

Video Temporal Reasoning

作者: Sicheng Tao, Jungang Li, Yibo Yan, Junyan Zhang, Yubo Gao, Hanqian Li, ShuHang Xun, Yuxuan Fan, Hong Chen, Jianxiang He, Xuming Hu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 4

摘要:

论文标题:MOSS-ChatV:基于过程推理奖励的强化学习用于视频时序推理

中文摘要:
视频推理已成为多模态大语言模型(MLLMs)的一项关键能力,要求模型从静态感知转向对复杂场景中时间动态的连贯理解。然而,现有的MLLMs常常表现出推理过程不一致的问题,即即使最终答案正确,中间推理步骤仍可能偏离视频的实际动态,从而损害了模型的可解释性与鲁棒性。为解决这一问题,我们提出了MOSS-ChatV,一种基于动态时间规整(Dynamic Time Warping, DTW)过程奖励的强化学习框架。该框架采用基于规则的奖励机制,将模型的推理轨迹与时间上对齐的参考内容进行匹配,从而在无需辅助奖励模型的前提下实现高效的过程监督。我们进一步提出动态状态预测作为衡量视频推理能力的关键指标,并构建了MOSS-Video——一个包含标注推理轨迹的基准数据集,其中训练集用于微调MOSS-ChatV,保留的测试集则用于评估。MOSS-ChatV在MOSS-Video(测试集)上取得了87.2%的成绩,同时在MVBench和MMVU等通用视频理解基准上也实现了性能提升。该框架在Qwen2.5-VL和Phi-2等多种不同架构上均表现出稳定的增益效果,验证了其广泛的适用性。通过GPT-4o作为评判者的评估进一步表明,MOSS-ChatV生成的推理轨迹更加一致且稳定。


29. StyleBench: Evaluating thinking styles in Large Language Models

作者: Junyu Guo, Shangding Gu, Ming Jin, Costas Spanos, Javad Lavaei

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 3

摘要:

论文标题:StyleBench:大语言模型思维风格的评估

中文摘要:
大语言模型(LLM)的有效性在很大程度上受到其提示中所采用的推理策略(即思维风格)的影响。然而,这些推理风格、模型架构与任务类型之间的相互作用仍缺乏深入理解。为此,我们提出了 StyleBench——一个用于在多种任务和模型上系统评估推理风格的综合性基准。我们在五种典型的推理风格上进行了评估,包括思维链(Chain of Thought, CoT)、思维树(Tree of Thought, ToT)、思维算法(Algorithm of Thought, AoT)、思维草图(Sketch of Thought, SoT)和草稿链(Chain-of-Draft, CoD),并在五个推理任务上测试了来自主流模型家族(LLaMA、Qwen、Mistral、Gemma、GPT-OSS、Phi 和 DeepSeek)的15个开源模型,参数规模从2.7亿到1200亿不等。我们的大规模分析表明,并不存在一种在所有场景下都最优的推理风格。我们发现,推理策略的有效性高度依赖于模型规模和任务类型:基于搜索的推理方法(如 AoT、ToT)在开放性问题中表现优异,但需要大规模模型支持;而简洁型推理风格(如 SoT、CoD)在定义明确的任务上则展现出显著的效率优势。此外,我们识别出若干关键行为模式:较小规模的模型常常无法遵循输出指令,倾向于直接猜测;而推理的鲁棒性则随模型规模增大而增强。本研究为在不同约束条件下选择最优推理策略提供了重要指导,我们已将该基准开源:https://github.com/JamesJunyuGuo/Style_Bench。


30. Discrete Diffusion for Reflective Vision-Language-Action Models in

Autonomous Driving

作者: Pengxiang Li, Yinan Zheng, Yue Wang, Huimin Wang, Hang Zhao, Jingjing Liu, Xianyuan Zhan, Kun Zhan, Xianpeng Lang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-24 | 👍 点赞数: 3

摘要:

论文标题:面向自动驾驶中反射式视觉-语言-动作模型的离散扩散方法

中文摘要:
端到端(E2E)方案已成为自动驾驶系统的主流方法,其中视觉-语言-动作(VLA)模型代表了一种新范式,该范式利用视觉-语言模型(VLM)预训练的多模态知识来理解和交互复杂的现实世界环境。然而,这些方法仍受限于模仿学习的固有局限性,难以在训练过程中有效编码物理规律。现有方法通常依赖复杂的基于规则的后处理优化,或采用主要局限于仿真的强化学习,亦或使用需要昂贵梯度计算的扩散引导技术。为应对上述挑战,本文提出ReflectDrive——一种新颖的基于学习的框架,通过离散扩散机制集成反射模块,实现安全轨迹生成。我们首先对二维驾驶空间进行离散化以构建动作码本,从而使得预训练的扩散语言模型可通过微调应用于规划任务。本方法的核心是一种具备安全意识的反射机制,能够在无需梯度计算的前提下实现迭代式自我修正。我们的方法首先基于目标条件生成轨迹,以建模多模态驾驶行为;在此基础上,采用局部搜索方法识别不安全的动作标记(tokens),并确定可行解,随后将其作为安全锚点,用于基于图像修复(inpainting)的轨迹重构。在NAVSIM基准上的实验结果表明,ReflectDrive在安全关键型轨迹生成方面展现出显著优势,为自动驾驶系统提供了一种可扩展且可靠的解决方案。


31. Thinking While Listening: Simple Test Time Scaling For Audio

Classification

作者: Prateek Verma, Mert Pilanci

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-24 | 👍 点赞数: 3

摘要:

论文标题:听觉中的思考:面向音频分类的简单测试时扩展方法

中文摘要:
我们提出了一种框架,使神经网络模型能够在“聆听”日常声音的同时进行“思考”,从而提升音频分类性能。受大型语言模型在推理能力方面最新进展的启发,我们探讨了两个核心问题:(i)如何将“思考”机制融入现有的音频分类流程中,以实现类别空间中的推理并提升性能;(ii)能否从零开始设计一种新架构,同时支持“思考”能力和测试时扩展(test-time scaling)?我们证明,在这两种设定下,所提出的模型均表现出更高的分类准确率。通过利用测试时扩展,随着采样推理路径数量的增加,模型性能持续提升。此外,我们评估了两个开源推理模型 GPT-OSS-20B 和 Qwen3-14B,结果表明,尽管这些模型具备零样本推理能力,但一种轻量级方法——仅对冻结的小型模型(如 GPT-2)的嵌入矩阵进行重新训练——即可超越参数规模达数十亿的文本推理模型的性能表现。


32. The Unanticipated Asymmetry Between Perceptual Optimization and

Assessment

作者: Jiabei Zhang, Qi Wang, Siyu Wu, Du Chen, Tianhe Wu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 2

摘要:

论文标题:感知优化与评估之间的意外不对称性

中文摘要:
感知优化主要由保真度目标驱动,该目标同时保证语义一致性和整体视觉真实感;而对抗性目标则通过增强感知清晰度和细粒度细节提供补充性的优化。尽管这些目标在感知优化中起着核心作用,但它们作为优化目标的有效性与其作为图像质量评估(IQA)指标的性能之间的相关性却尚未得到充分研究。在本研究中,我们进行了系统性分析,揭示了感知优化与评估之间存在一种意料之外的不对称性:在图像质量评估中表现优异的保真度指标,并不一定在感知优化中同样有效,这种错位现象在对抗训练下尤为明显。此外,尽管判别器在优化过程中能有效抑制伪影,但其学习到的表征在用作图像质量评估模型的骨干网络初始化时,所带来的增益十分有限。除了这一不对称性外,我们的研究还进一步表明,判别器的设计对优化过程具有决定性影响:相较于标准结构或基于Transformer的架构,基于图像块(patch-level)和卷积结构的判别器能够实现更准确的细节重建。这些发现深化了人们对损失函数设计及其与图像质量评估可迁移性之间关系的理解,为构建更加原则化的感知优化方法奠定了基础。


33. MI-Fuse: Label Fusion for Unsupervised Domain Adaptation with

Closed-Source Large-Audio Language Model

作者: Hsiao-Ying Huang, Yi-Cheng Lin, Hung-yi Lee

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 2

摘要:

论文标题:MI-Fuse:基于闭源大音频语言模型的无监督域自适应标签融合方法

中文摘要:
大型音频-语言模型(Large Audio-Language Models, LALMs)在语音任务中展现出强大的零样本能力,显示出其在语音情感识别(SER)中的应用潜力。然而,在实际部署中,由于存在域不匹配问题,且源域数据不可获取、强大的LALM仅能通过API访问,导致SER性能往往显著下降。本文提出一个关键问题:当仅有未标注的目标域音频和仅提供API访问的LALM时,能否训练一个学生模型,使其在目标域上的表现超越该LALM?为此,我们提出了MI-Fuse——一种去噪标签融合框架,该框架引入一个在源域上训练的SER分类器作为辅助教师,以增强LALM的能力。该框架从两位教师模型中获取多个随机预测,利用基于互信息的不确定性对它们的均值分布进行加权,并采用指数移动平均教师机制来稳定训练过程。在三个公开情感数据集和六种跨域迁移场景下的实验结果表明,该方法 consistently 提升了性能,学生模型不仅超过了LALM的表现,且相较最强基线方法提升了3.9%。本方法在无需共享源域数据的前提下增强了具备情感感知能力的语音系统,实现了更贴近真实应用场景的域自适应。


34. Blueprints of Trust: AI System Cards for End to End Transparency and

Governance

作者: Huzaifa Sidhpurwala, Emily Fox, Garth Mollett, Florencio Cano Gabarda, Roman Zhukov

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-23 | 👍 点赞数: 2

摘要:

论文标题:信任的蓝图:面向端到端透明性与治理的AI系统卡片

中文摘要:
本文提出了“风险感知系统卡片”(Hazard-Aware System Card, HASC),这是一种旨在增强人工智能(AI)系统在开发与部署过程中透明度与问责性的新型框架。HASC在现有模型卡片(model card)和系统卡片(system card)概念的基础上,引入了对AI系统安全与安保状况的全面、动态记录机制。该框架提出了一套标准化标识体系,包括一种新颖的AI安全风险标识符(AI Safety Hazard, ASH ID),以补充现有的安全标识(如CVE),实现对已修复缺陷的清晰、一致的沟通。通过提供一个单一且可访问的权威信息来源,HASC使开发者及相关利益相关方能够在AI系统全生命周期中就其安全性做出更明智的决策。最后,本文还将所提出的AI系统卡片与ISO/IEC 42001:2023标准进行了比较,并探讨了二者如何相互补充,共同提升AI系统的透明度与问责性。


35. Evaluating Large Language Models for Detecting Antisemitism

作者: Jay Patel, Hrudayangam Mehta, Jeremy Blackburn

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-22 | 👍 点赞数: 1

摘要:

论文标题:评估大语言模型在反犹主义内容检测中的应用

中文摘要:
检测仇恨内容是一项具有挑战性且重要的任务。自动化工具(如机器学习模型)可以提供帮助,但需要持续训练以适应社交媒体不断变化的环境。在本研究中,我们评估了八种开源大语言模型(LLM)在检测反犹主义内容方面的能力,特别利用上下文内的定义作为政策指导。我们探讨了多种提示技术,并设计了一种新的类思维链(CoT)提示方法——引导式思维链(Guided-CoT)。Guided-CoT 能有效处理上下文中的政策定义,在所有评估的模型上均提升了性能,且不受解码配置、模型规模或推理能力的影响。值得注意的是,Llama 3.1 70B 的表现优于经过微调的 GPT-3.5。此外,我们分析了大语言模型的错误类型,并引入了量化模型生成推理过程中语义偏离程度的新指标,揭示了不同模型之间显著的差异和矛盾行为。我们的实验突出了各类大语言模型在实用性、可解释性和可靠性方面的差异。