每日论文 - 2025年09月27日
论文总数: 35
1. VCRL: Variance-based Curriculum Reinforcement Learning for Large
Language Models
作者: Guochao Jiang, Wenfeng Feng, Guofeng Quan, Chuzhan Hao, Yuewei Zhang, Guohua Liu, Hao Wang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-24 | 👍 点赞数: 115
摘要:
论文标题:VCRL:基于方差的课程强化学习用于大语言模型
中文摘要:
基于策略的强化学习目前在提升大语言模型(LLM)数学推理能力方面发挥着重要作用。然而,现有的基于 rollout 的强化学习方法( 如 GRPO、DAPO、GSPO 等)未能显式考虑大语言模型对不同难度样本的学习能力,这与人类在数学推理任务中从易到难的认知过程相悖。直观上,我们发现强化学习中的 rollout 组奖励方差在一定程度上反映了当前样本对大语言模型而言的难度:过于简单或过于困难的样本具有较低的方差,而中等难度的样本则表现出较高的方差。基于这一观察,我们提出了 VCRL——一种基于组奖励方差的课程式强化学习框架,能够根据奖励方差动态调控训练样本的难度。在五个数学推理基准数据集和两种大语言模型上的实验结果表明,VCRL 显著优于当前的大语言模型强化学习基线方法。
2. MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and
Open Resources
作者: Sicong Leng, Jing Wang, Jiaxi Li, Hao Zhang, Zhiqiang Hu, Boqiang Zhang, Yuming Jiang, Hang Zhang, Xin Li, Lidong Bing, Deli Zhao, Wei Lu, Yu Rong, Aixin Sun, Shijian Lu
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 98
摘要:
论文标题:MMR1:基于方差感知采样与开放资源的多模态推理能力提升
中文摘要:
大型多模态推理 模型已取得快速进展,但其发展受到两个主要因素的制约:一是缺乏公开的大规模、高质量的长链式思维(Chain-of-Thought, CoT)数据;二是后训练阶段强化学习(Reinforcement Learning, RL)算法的不稳定性。当前RL微调的标准框架——组相对策略优化(Group Relative Policy Optimization, GRPO),在奖励方差较低时容易出现梯度消失问题,从而削弱优化信号并影响收敛效果。本文作出三项贡献:(1)我们提出方差感知采样(Variance-Aware Sampling, VAS),这是一种基于方差促进评分(Variance Promotion Score, VPS)的数据选择策略,通过结合输出结果的方差与推理路径的多样性,提升奖励方差,进而稳定策略优化过程;(2)我们发布了一套大规模且精心筛选的资源,包含约160万条长链CoT冷启动数据和约1.5万组RL问答对,并配套提供完整可复现的端到端训练代码库,确保数据在质量、难度和多样性方面的高标准;(3)我们开源了一系列多种规模的多模态推理模型,为学术界建立了标准化的基准。在多个数学推理基准上的实验验证了所构建数据集及VAS方法的有效性,全面的消融研究与分析进一步揭示了各组件的贡献。此外,我们从理论上证明:奖励方差为策略梯度期望幅度提供了下界,而VAS正是实现该理论保障的一种实用机制。我们的代码、数据及模型检查点已公开于 https://github.com/LengSicong/MMR1。
3. SciReasoner: Laying the Scientific Reasoning Ground Across Disciplines
作者: Yizhou Wang, Chen Tang, Han Deng, Jiabei Xiao, Jiaqi Liu, Jianyu Wu, Jun Yao, Pengze Li, Encheng Su, Lintao Wang, Guohang Zhuang, Yuchen Ren, Ben Fei, Ming Hu, Xin Chen, Dongzhan Zhou, Junjun He, Xiangyu Yue, Zhenfei Yin, Jiamin Wu, Qihao Zheng, Yuhao Zhou, Huihui Xu, Chenglong Ma, Yan Lu, Wenlong Zhang, Chunfeng Song, Philip Torr, Shixiang Tang, Xinzhu Ma, Wanli Ouyang, Lei Bai
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 94
摘要:
论文标题:SciReasoner:构建跨学科的科学推理基础
中文摘要:
我们提出了一种科学推理基础模型,能够将自然语言与异构的科学表示形式进行对齐。该模型在一个包含2060亿token的语料库上进行了预训练,涵盖科学文本、纯序列以及序列-文本配对数据,随后通过监督微调(SFT)在4000万条指令上进行对齐,并采用退火冷启动自举方法激发长篇幅的思维链推理,结合任务特定奖励塑造的强化学习,从而内化严谨的科学推理能力。模型支持四大类功能,覆盖多达103项科研工作流中的任务:(i)文本与科学格式之间的忠实互译;(ii)文本/知识提取;(iii)性质预测;(iv)性质分类;(v)无条件与条件序列生成及设计。与专用系统相比,我们的方法拓展了指令覆盖范围,提升了跨领域泛化能力,并增强了输出的准确性。我们详细阐述了数据整理与训练过程,并证明跨学科学习显著增强了知识迁移能力和下游 任务的可靠性。该模型、指令微调数据集及评估代码已开源,发布地址为 https://huggingface.co/SciReason 和 https://github.com/open-sciencelab/SciReason。
4. Tree Search for LLM Agent Reinforcement Learning
作者: Yuxiang Ji, Ziyu Ma, Yong Wang, Guanhua Chen, Xiangxiang Chu, Liaoni Wu
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 84
摘要:
论文标题:面向大语言模型智能体强化学习的树搜索方法
中文摘要:
近年来,强化学习(Reinforcement Learning, RL)的进展显著提升了大语言模型(Large Language Models, LLMs)的智能体能力。在长期、多轮次的智能体任务中,现有仅依赖结果奖励的方法常常面临监督信号稀疏的问题。为应对这一挑战,本文提出基于树搜索的分组相对策略优化方法(Tree-based Group Relative Policy Optimization, Tree-GRPO),这是一种基于树搜索的分组智能体强化学习方法,其中每个树节点代表完整的智能体交互步骤。通过共享共同前缀,树搜索采样能够在固定的token或工具调用预 算内显著增加可实现的 rollout 数量。此外,我们发现树状结构的轨迹即使仅使用结果奖励,也能自然地构建出逐步骤的过程监督信号。基于此,Tree-GRPO 在树内和树间两个层次上估计分组的相对优势。通过理论分析,我们证明树内层级的分组相对策略优化目标等价于逐步骤的直接偏好学习目标。在11个数据集和3类问答任务上的实验结果表明,所提出的基于树结构的强化学习方法优于基于链式结构的强化学习方法。
5. Seedream 4.0: Toward Next-generation Multimodal Image Generation
作者: Team Seedream, Yunpeng Chen, Yu Gao, Lixue Gong, Meng Guo, Qiushan Guo, Zhiyao Guo, Xiaoxia Hou, Weilin Huang, Yixuan Huang, Xiaowen Jian, Huafeng Kuang, Zhichao Lai, Fanshi Li, Liang Li, Xiaochen Lian, Chao Liao, Liyang Liu, Wei Liu, Yanzuo Lu, Zhengxiong Luo, Tongtong Ou, Guang Shi, Yichun Shi, Shiqi Sun, Yu Tian, Zhi Tian, Peng Wang, Rui Wang, Xun Wang, Ye Wang, Guofeng Wu, Jie Wu, Wenxu Wu, Yonghui Wu, Xin Xia, Xuefeng Xiao, Shuang Xu, Xin Yan, Ceyuan Yang, Jianchao Yang, Zhonghua Zhai, Chenlin Zhang, Heng Zhang, Qi Zhang, Xinyu Zhang, Yuwei Zhang, Shijia Zhao, Wenliang Zhao, Wenjia Zhu
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-24 | 👍 点赞数: 69
摘要:
论文标题:Seedream 4.0:迈向下一代多模态图像生成
中文摘要:
本文提出 Seedream 4.0,一种高效且高性能的多模态图像生成系统,能够在统一框架下实现文本到图像(T2I)合成、图像编辑以及多图融合生成。我们设计了一种高度高效的扩散变换器(diffusion transformer),并配备了强大的变分自编码器(VAE),可显著减少图像 token 的数量。这不仅提升了模型训练效率,还使其能够快速生成原生高分辨率图像(例如 1K–4K)。Seedream 4.0 在涵盖多种分类体系和知识导向概念的数十亿文本-图像数据对上进行了预训练。通过覆盖数百个垂直场景的全面数据采集,结合优化的训练策略,实现了稳定的大规模训练,并具备出色的泛化能力。通过引入精心微调的视觉语言模型(VLM),我们对 T2I 和图像编辑任务进行联合的多模态后训练(multi-modal post-training)。在推理加速方面,我们融合了对抗性蒸馏、分布匹配、量化技术以及推测解码(speculative decoding),在不依赖大语言模型/视觉语言模型作为位置编码(PE)模型的情况下,生成一张 2K 图像的推理时间最快可达 1.8 秒。综合评估结果表明,Seedream 4.0 在文本到图像生成和多模态图像编辑任务上均达到了业界领先水平。尤其在复杂任务中展现出卓越的多模态能力,包括精确的图像编辑、上下文内推理、多图参考生成以及多输出图像生成。该系统将传统的 T2I 模型拓展为更具交互性和多维度的创作工具,推动了生成式人工智能在创意表达与专业应用领域的边界。Seedream 4.0 现已可通过 https://www.volcengine.com/experience/ark?launch=seedream 访问体验。
6. Hunyuan3D-Omni: A Unified Framework for Controllable Generation of 3D
Assets
作者: Team Hunyuan3D, Bowen Zhang, Chunchao Guo, Haolin Liu, Hongyu Yan, Huiwen Shi, Jingwei Huang, Junlin Yu, Kunhong Li, Linus, Penghao Wang, Qingxiang Lin, Sicong Liu, Xianghui Yang, Yixuan Tang, Yunfei Zhao, Zeqiang Lai, Zhihao Liang, Zibo Zhao
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 36
摘要:
论文标题:Hunyuan3D-Omni:一种用于可控生成3D资产的统一框架
中文摘要:
近年来,原生3D生成模型的进展显著加速了游戏、电影和设计领域的资产创建。然而,大多数现有方法仍主要依赖图像或文本作为条件输入,缺乏细粒度的跨模态控制能力,限制了生成过程的可控性及实际应用。为弥补这一不足,我们提出了Hunyuan3D-Omni——一个基于Hunyuan3D 2.1构建的、支持细粒度可控3D资产生成的统一框架。除了图像之外,Hunyuan3D-Omni还支持点云、体素、边界框以及骨骼姿态先验等多种条件信号输入,从而实现对几何形状、拓扑结构和姿态的精确控制。与为不同模态设计独立输出头的传统方法不同,我们的模型在单一的跨模态架构中实现了所有输入信号的统一处理。我 们采用一种渐进式、难度感知的采样策略进行训练:在每个训练样本中仅选择一种控制模态,并倾向于更多采样较难的信号(如骨骼姿态),同时降低简单信号(如点云)的采样权重。该策略有助于提升多模态融合的鲁棒性,并能优雅地处理输入缺失的情况。实验结果表明,这些额外的控制机制不仅提高了生成精度,还支持几何感知的形态变换,并增强了在实际生产流程中的稳健性。
7. AutoIntent: AutoML for Text Classification
作者: Ilya Alekseev, Roman Solomatin, Darina Rustamova, Denis Kuznetsov
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 29
摘要:
论文标题:AutoIntent:面向文本分类的自动化机器学习
中文摘要:
AutoIntent 是一个用于文本分类任务的自动化机器学习工具。与现有解决方案不同,AutoIntent 提供了端到端的自动化功能,包括嵌入模型选择、分类器优化以及决策阈值调优,所有功能均集成在一个模块化、类似 scikit-learn 的接口中。该框架设计支持多标签分类和超出范围(out-of-scope)意图检测。在标准的意图分类数据集上,AutoIntent 表现出优于现有自动化机器学习工具的性能,同时使用户能够有效平衡模型效果 与资源消耗。
8. TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them
作者: Yidong Wang, Yunze Song, Tingyuan Zhu, Xuanwang Zhang, Zhuohao Yu, Hao Chen, Chiyu Song, Qiufeng Wang, Cunxiang Wang, Zhen Wu, Xinyu Dai, Yue Zhang, Wei Ye, Shikun Zhang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 27
摘要:
论文标题:TrustJudge:大模型作为评判者的不一致性及其缓解方法
中文摘要:
将大语言模型(Large Language Models, LLMs)用作自动评估工具(即“LLM-as-a-judge”)的做法,暴露出当前评估框架中存在的严重不一致性问题。本文识别出两类根本性的不一致性:(1)评分比较不一致性,即在成对比较中得分较低的回复反而优于得分较高的回复;(2)成对传递性不一致性,表现为出现循环偏好链(如 A > B > C > A)以及等价关系矛盾(如 A = B = C ≠ A)。我们认为,这些问题源于离散评分系统中的信息损失,以及成对比较过程中模糊的平局判定。为此,我们提出 TrustJudge——一种概率化评估框架,通过两项关键技术改进现有局限:1)分布敏感型评分机制,从离散评分的概率分布中计算连续期望值,保留信息熵以实现更精确的打分;2)基于似然性的聚合方法,利用双向偏好概率或困惑度(perplexity)来解决传递性违反问题。我们还形式化地分析了当前 LLM-as-a-judge 框架的理论局限,并展示了 TrustJudge 如何克服这些缺陷。在使用 Llama-3.1-70B-Instruct 作为评判模型并基于我们构建的数据集进行评估时,TrustJudge 将评分比较不一致性降低了 8.43%(从 23.32% 下降至 14.89%),成对传递性不一致性降低了 10.82%(从 15.22% 下降至 4.40%),同时保持了更高的评估准确率。本研究首次对 LLM-as-a-judge 范式中的评估框架不一致性进行了系统性分析,提供了兼具理论深度与实践价值的解决方案,显著提升了自动化评估的可靠性。该框架在多种模型架构和规模下均表现出稳定改进,无需额外训练或人工标注即可实现更可信的大模型评估。代码地址:https://github.com/TrustJudge/TrustJudge。
9. Thinking Augmented Pre-training
作者: Liang Wang, Nan Yang, Shaohan Huang, Li Dong, Furu Wei
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-24 | 👍 点赞数: 22
摘要:
论文标题:思维增强预训练
中文摘要: 本文提出了一种简单且可扩展的方法,通过在现有文本数据中增补“思维轨迹”来提升大语言模型(LLM)训练的数据效率。近年来,大语言模型预训练所需的计算资源正以前所未有的速度增长,而高质量训练数据的获取却依然有限。因此,如何最大化利用现有数据成为一项重要的研究挑战。一个主要难点在于,在模型容量固定的情况下,某些高质量的词元(token)难以被有效学习,因为单个词元背后的推理逻辑可能极为复杂和深层。为解决这一问题,我们提出了思维增强预训练(Thinking augmented Pre-Training, TPT),这是一种通用方法,通过自动生动生成的思维轨迹来增强原始文本数据。这种数据增强方式有效增加了训练数据量,并通过逐步推理与分解,使原本难以学习的高质量词元变得更易于模型掌握。我们在多种训练配置下应用了TPT方法,训练规模高达1000亿词元,涵盖数据受限与数据充足两种预训练场景,以及从强大的开源检查点出发的中期训练阶段。实验结果表明,该方法在不同模型规模和架构家族中均显著提升了大语言模型的性能。值得注意的是,TPT将大语言模型预训练的数据效率提高了3倍。对于一个30亿参数的模型,其在多个高难度推理基准测试上的训练后性能提升了超过10%。
10. CE-GPPO: Controlling Entropy via Gradient-Preserving Clipping Policy
Optimization in Reinforcement Learning
作者: Zhenpeng Su, Leiyu Pan, Minxuan Lv, Yuntao Li, Wenping Hu, Fuzheng Zhang, Kun Gai, Guorui Zhou
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 17
摘要:
论文标题:CE-GPPO:通过梯度保持裁剪策略优化实现熵控制的强化学习方法
中文摘要:
强化学习(Reinforcement Learning, RL)已成为优化大语言模型(Large Language Models, LLMs)以处理复杂推理任务的一种强大范式。在此过程中,一个核心挑战在于对策略熵(policy entropy)的管理,该指标反映了训练过程中探索与利用之间的平衡。现有方法(如近端策略优化PPO及其变体)由于采用裁剪机制,会丢弃来自低概率词元(tokens)的宝贵梯度信号。我们系统地分析了熵的动态演化过程,揭示出这些被裁剪的词元在调节熵演变中扮演着关键但被忽视的角色。为此,我们提出了“通过梯度保持策略优化实现熵控制”(Controlling Entropy via Gradient-Preserving Policy Optimization, CE-GPPO)这一新型算法,该方法以温和且有界的方式,将原始PPO中被裁剪词元的梯度信息重新引入优化过程。通过控制裁剪区间之外词元的梯度幅度,CE-GPPO能够有效实现探索与利用之间的权衡。我们提供了理论分析和实验证据,表明CE-GPPO能有效缓解熵的不稳定性。在数学推理基准任务上的大量实验表明,CE-GPPO在不同规模的模型上均持续优于强基线方法。
11. Residual Off-Policy RL for Finetuning Behavior Cloning Policies
作者: Lars Ankile, Zhenyu Jiang, Rocky Duan, Guanya Shi, Pieter Abbeel, Anusha Nagabandi
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-23 | 👍 点赞数: 17
摘要:
论文标题:用于微调行为克隆策略的残差离策略强化学习
中文摘要:
近年来,行为克隆(Behavior Cloning, BC)在实现高性能的视觉-运动控制策略方面取得了显著进展。然而,这类方法受限于人类示范数据的质量、数据采集所需的人工成本,以及离线数据规模增大后性能提升逐渐饱和的问题。相比之下,强化学习(Reinforcement Learning, RL)通过智能体与环境的自主交互进行训练,在多个领域中已展现出卓越的表现。但直接在真实世界机器人上训练RL策略仍面临诸多挑战,包括样本效率低下、安全性问题,以及在长视野任务中难以从稀疏奖励信号中学习,尤其是在高自由度(DoF)系统中更为突出。本文提出一种结合BC与RL优势的框架,采用残差学习的方式实现二者融合。我们的方法将BC策略作为黑箱基础策略,利用样本高效的离策略RL来学习轻量级的逐步骤残差修正。实验表明,该方法仅需稀疏的二元奖励信号,即可在仿真环境和真实世界中有效提升高自由度系统的 操作策略性能。特别地,据我们所知,本文首次成功实现了在具有灵巧手的人形机器人上的真实世界强化学习训练。实验结果在多种基于视觉的任务中达到了最先进的性能,为强化学习在现实场景中的实际部署提供了一条可行的技术路径。
项目网站:https://residual-offpolicy-rl.github.io
12. CHARM: Control-point-based 3D Anime Hairstyle Auto-Regressive Modeling
作者: Yuze He, Yanning Zhou, Wang Zhao, Jingwen Ye, Yushi Bai, Kaiwen Xiao, Yong-Jin Liu, Zhongqian Sun, Wei Yang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 15
摘要:
论文标题:CHARM:基于控制点的3D动漫发型自回归建模
中文摘要:
本文提出CHARM,一种新颖的参数化表示方法与生成框架,用于动漫发型建模。传统头发建模方法主要针对真实感发型,采用基于发丝或体素的表示方式,而动漫发型具有高度风格化、分段结构化的几何特征,对现有技术提出了挑战。已有工作通常依赖密集网格建模或手工设计的样条曲线,导致 编辑效率低下,难以支持可扩展的学习任务。CHARM引入了一种紧凑且可逆的基于控制点的参数化方法,其中每张头发片(hair card)由一系列控制点表示,每个控制点仅用五个几何参数进行编码。这种高效且精确的表示方法既支持艺术家友好的设计,也适用于基于学习的生成。在此表示基础上,CHARM进一步提出一种自回归生成框架,能够从输入图像或点云中有效生成动漫发型。通过将动漫发型视为一种序列化的“发型语言”,我们的自回归Transformer模型能够同时捕捉局部几何细节与整体发型拓扑结构,从而实现高保真的动漫发型生成。为了支持动漫发型生成模型的训练与评估,我们构建了AnimeHair数据集,包含37,000个高质量的动漫发型样本,每个样本均提供分离的头发片和处理后的网格数据。大量实验表明,CHARM在重建精度与生成质量方面均达到最先进的水平,为动漫发型建模提供了一种表达能力强且可扩展的解决方案。项目主页:https://hyzcluster.github.io/charm/
13. Recon-Act: A Self-Evolving Multi-Agent Browser-Use System via Web
Reconnaissance, Tool Generation, and Task Execution
作者: Kaiwen He, Zhiwei Wang, Chenyi Zhuang, Jinjie Gu
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 15
摘要:
论文标题:Recon-Act:一种通过网页侦察、工具生成与任务执行实现自我演化的多智能体浏览器使用系统
中文摘要:
近年来,多模态模型取得了显著进展,为智能化浏览器操作代理的发展奠定了基础。然而,在现实网页环境中执行多轮次、长视野的任务时,现有代理仍面临动作序列混乱以及执行过程中试错过多的问题。本文提出 Recon-Act,一种基于“侦察-行动”(Reconnaissance-Action)行为范式的自演化多智能体框架。该系统由侦察团队(Reconnaissance Team)与行动团队(Action Team)组成:前者负责对比分析与工具生成,后者负责意图分解、工具协调与任务执行。侦察团队通过对比失败轨迹与成功轨迹,推断出修正策略,并将其抽象为统一形式的广义工具——这些工具可表现为提示语或基于规则的代码,并实时注册至工具库中。行动团队则利用这些针对性工具重新推理执行过程,从而构建了一个“数据—工具—行动—反馈”的闭环训练流程。按照本文提出的六级实现路线图,我们目前已实现第三级(仅需有限的人工介入)。借助侦察过程获得的广义工具,Recon-Act 显著提升了对未见过网站的适应能力以及在长视野任务上的可解性,在具有挑战性的 VisualWebArena 数据集上达到了最先进的性能水平。
14. Does FLUX Already Know How to Perform Physically Plausible Image
Composition?
作者: Shilin Lu, Zhuming Lian, Zihan Zhou, Shaocong Zhang, Chen Zhao, Adams Wai-Kin Kong
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 13
摘要:
论文标题:FLUX 是否已经具备执行物理上合理的图像合成的能力?
中文摘要:
图像合成旨在将用户指定的物体无缝地插入到新场景中,但现有模型在处理复杂光照(如精确的阴影、水面反射)以及多样化、高分辨率输入时仍面临挑战。现代文本到图像扩散模型(例如 SD3.5、FLUX)已编码了重要的物理规律先验和高分辨率先验,然而缺乏一种无需依赖潜在空间反演(latent inversion)或脆弱的注意力编辑(attention surgery)即可释放这些先验的有效框架——潜在空间反演常导致物体姿态被锁定在语义不协调的方向上。为此,我们提出 SHINE,一种无需训练的高质量、无缝插入框架,实现误差中和(Seamless, High-fidelity Insertion with Neutralized Errors)。SHINE 引入了流形引导的锚点损失(manifold-steered anchor loss),利用预训练的定制化适配器(如 IP-Adapter)来引导潜在表示,在保持主体忠实还原的同时保护背景完整性。此外,我们提出了降质抑制引导(degradation-suppression guidance)和自适应背景融合机制,以进一步消除低质量输出和可见拼接痕迹。针对当前缺乏严格评测基准的问题,我们构建了 ComplexCompo 数据集,涵盖多种分辨率,并包含弱光、强光照、复杂阴影和反射表面等具有挑战性的条件。在 ComplexCompo 和 DreamEditBench 上的实验表明,SHINE 在标准指标(如 DINOv2)以及与人类感知对齐的评分(如 DreamSim、ImageReward、VisionReward)方面均达到最先进水平。代码与评测基准将在论文发表后公开发布。
15. Understanding the Thinking Process of Reasoning Models: A Perspective
from Schoenfeld's Episode Theory
作者: Ming Li, Nan Zhang, Chenrui Fan, Hong Jiao, Yanbin Fu, Sydney Peters, Qingshu Xu, Robert Lissitz, Tianyi Zhou
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-18 | 👍 点赞数: 13
摘要:
论文标题:理解推理模型的思维过程:基于Schoenfeld情景理论的视角
中文摘要:
尽管大推理模型(Large Reasoning Models, LRMs)能够生成 lengthy 的思维链推理过程,但我们仍缺乏一个系统性的框架来理解这些思维内容的结构。本文提出一种新方法,将Schoenfeld的情景理论(Episode Theory)——一种用于人类数学问题解决的经典认知框架——应用于分析LRMs的推理轨迹。我们对模型在数学问题求解中生成的数千个句子和段落进行了标注,使用了七种认知标签(例如“规划”(Plan)、“执行”(Implement)、“验证”(Verify)等)。由此构建了首个面向机器推理细粒度分析的公开基准数据集,包含大规模标注语料库以及详细的标注指南。初步分析揭示了LRM推理过程中的显著模式,例如不同认知状态之间的转换动态。该框架为解读LRM的认知行为提供了理论基础,并为未来构建更可控、更透明的推理系统研究奠定了方法论基础。
16. UserRL: Training Interactive User-Centric Agent via Reinforcement
Learning
作者: Cheng Qian, Zuxin Liu, Akshara Prabhakar, Jielin Qiu, Zhiwei Liu, Haolin Chen, Shirley Kokane, Heng Ji, Weiran Yao, Shelby Heinecke, Silvio Savarese, Caiming Xiong, Huan Wang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-24 | 👍 点赞数: 10
摘要:
论文标题:UserRL:通过强化学习训练以用户为中心的交互式智能体
中文摘要:
强化学习(Reinforcement Learning, RL)在训练超越静态基准、能够进行动态多轮交互的智能体模型方面展现出巨大潜力。然而,此类智能体的最终价值在于其辅助用户的能力,而实际用户交互的多样性与动态性为此带来了严峻挑战。本文提出UserRL——一种统一的框架,通过标准化的gym环境结合模拟用户,实现对以用户为中心能力的训练与评估。我们系统地调整回合级(turn-level)奖励分配与轨迹级(trajectory-level)评分计算方式,以分析不同设定在GRPO算法下的学习效果。在Qwen3系列模型上的实验揭示了三个关键发现:(i)监督微调(SFT)冷启动对于激活初始交互能力并支持持续的强化学习提升至关重要;(ii)精心设计的轨迹评分机制可实现更高效且有效的多轮交互;(iii)尽管更强的模拟用户(如GPT-4o)有助于训练,但开源模拟器(如Qwen3-32B)仍是成本低廉且具有良好迁移性的可行选择。综上,这些结果表明,奖励塑形的精细设计与模拟用户的选择,与模型规模同等重要,并确立了UserRL作为构建鲁棒的以用户为中心智能体模型的实用路径。所有代码与数据均已公开,供后续研究使用。
17. SD3.5-Flash: Distribution-Guided Distillation of Generative Flows
作者: Hmrishav Bandyopadhyay, Rahim Entezari, Jim Scott, Reshinth Adithyan, Yi-Zhe Song, Varun Jampani
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 9
摘要:
论文标题:SD3.5-Flash:面向生成流的分布引导蒸馏
中文摘要:
本文提出 SD3.5-Flash,一种高效的少步蒸馏框架,可将高质量图像生成带入普通消费级设备。我们的方法通过一种重新设计的分布匹配目标函数,对计算成本高昂的修正流 模型(rectified flow models)进行蒸馏,该目标函数专门针对少步生成场景进行了优化。我们提出了两项关键技术:用于降低梯度噪声的“时间步共享”(timestep sharing)机制,以及提升提示词对齐能力的“分步时间步微调”(split-timestep fine-tuning)方法。结合文本编码器重构、专用量化等全面的流水线优化措施,本系统能够在不同硬件配置下实现快速生成与内存高效的部署,从而在从手机到台式机的各类设备上实现生成式AI的普惠化访问。通过包括大规模用户研究在内的广泛评估,我们验证了SD3.5-Flash在性能上持续优于现有的少步生成方法,使先进的生成式人工智能真正具备实际部署的可行性。
18. ScaleDiff: Scaling Difficult Problems for Advanced Mathematical
Reasoning
作者: Qizhi Pei, Zhuoshi Pan, Honglin Lin, Xin Gao, Yu Li, Zinan Tang, Conghui He, Rui Yan, Lijun Wu
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 9
摘要:
论文标题:ScaleDiff:面向高级数学推理的难题规模化生成
中文摘要:
大型推理模型(LRMs)在复杂问题求解方面展现出令人印象深刻的能力,通常得益于在高难度数学问题上的训练,以激发复杂的推理过程。近期研究尝试通过提示闭源模型或大规模开源模型,从种子数据或内在数学概念中自动生成数学题目。然而,由于高昂的计算/API 成本、提示设计的复杂性以及所生成题目难度有限,这些方法在规模化扩展上仍面临挑战。为克服上述限制,我们提出了 ScaleDiff——一种简单而高效的流水线框架,旨在实现高难度问题的大规模生成。我们利用一个自适应思维模型,仅需一次前向推理即可高效地从现有数据集中识别出困难问题,该模型能够感知题目难度,并自动在“思考”与“非思考”模式之间切换。随后,我们在筛选出的高难度数据上训练了一个专用的难题生成器(DiffGen-8B),可大规模生成新的高难度问题,从而避免了针对每个实例进行复杂提示所带来的高昂 API 成本。在 ScaleDiff-Math 数据集上微调 Qwen2.5-Math-7B-Instruct 模型后,相较于原始数据集性能提升了 11.3%,并在 AIME'24、AIME'25、HMMT-Feb'25、BRUMO'25 和 MATH500 上取得了 65.9% 的平均准确率,优于 OpenThinker3 等近期先进的大型推理模型。值得注意的是,该性能是在使用成本较低的 Qwen3-8B 模型作为教师模型的情况下实现的,表明我们的框架能够在不依赖更大、更昂贵教师模型的前提下,有效迁移高级推理能力。此外,我们观察到随着高难度问题数量的增加,模型在困难基准测试上的性能呈现出明显的扩展规律。代码地址:https://github.com/QizhiPei/ScaleDiff。
19. V-GameGym: Visual Game Generation for Code Large Language Models
作者: Wei Zhang, Jack Yang, Renshuai Tao, Lingzheng Chai, Shawn Guo, Jiajun Wu, Xiaoming Chen, Ganqu Cui, Ning Ding, Xander Xu, Hu Wei, Bowen Zhou
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-24 | 👍 点赞数: 9
摘要:
论文标题:V-GameGym:面向代码大语言模型的视觉游戏生成基准
中文摘要:
代码大语言模型在编程任务中已展现出卓越的能力,然而当前的评测基准主要集中在单一模态,缺乏对视觉游戏开发场景的关注。大多数现有的与代码相关的基准仅评估语法正确性和执行准确性,忽视了可玩性、视觉美感和用户参与度等对实际应用至关重要的游戏特有指标。为弥合现有大语言模型在算法求解与竞赛级编程能力方面与真实游戏开发综合需求之间的差距,本文提出了V-GameGym——一个包含2,219个高质量样本的综合性基准,样本涵盖来自真实代码仓库的100个主题聚类,并采用新颖的基于聚类的数据筛选方法,确保数据集的多 样性与结构完整性。此外,我们提出了一种多模态评估框架,构建了一个由大语言模型驱动的自动化流水线,结合完整的UI沙箱环境,实现对视觉代码生成的全面评估。我们的广泛分析表明,V-GameGym有效连接了代码生成准确性与实际游戏开发流程之间的鸿沟,为可视化编程及交互元素生成提供了可量化的质量评估指标。
20. Quantized Visual Geometry Grounded Transformer
作者: Weilun Feng, Haotong Qin, Mingqiang Wu, Chuanguang Yang, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 8
摘要:
论文标题:量化视觉几何定位变换器
中文摘要:
以视觉几何定位变换器(Visual Geometry Grounded Transformers, VGGTs)为代表的基于学习的三维重建模型,借助大规模变换器架构取得了显著进展。然而,其高昂的计算与内存开销严重制约了在实际场景中的部署应用。训练后量化(Post-Training Quantization, PTQ)已成为压缩和加速模型的常用手段。然而,我们通过实验发现,PTQ在压缩十亿参数规模的VGGTs时面临独特挑战:数据无关的特殊标记(special tokens)导致激活分布呈现重尾特性,而三维数据的多视角特性又使得校准样本的选择过程极不稳定。本文提出了首个面向VGGTs的量化框架——QuantVGGT。该框架主要包含两项关键技术贡献:第一,提出双平滑细粒度量化方法(Dual-Smoothed Fine-Grained Quantization),通过引入全局前置的哈达玛旋转(Hadamard rotation)和局部后置的通道平滑(channel smoothing),有效缓解激活分布的重尾现象及通道间方差不均问题;第二,设计噪声过滤的多样性采样策略(Noise-Filtered Diverse Sampling),利用深层网络的统计信息过滤异常样本,并构建帧感知的多样化校准簇,以确保量化范围的稳定性。大量实验表明,QuantVGGT在不同基准任务和比特宽度下均达到当前最优性能,显著优于此前最先进的通用量化方法。特别地,我们的4比特QuantVGGT在保持重建精度达到全精度模型98%以上的同时,实现了3.7倍的内存压缩和2.5倍的实际硬件推理加速,充分体现了QuantVGGT在资源受限场景下的巨大优势与实用价值。代码已公开发布于 https://github.com/wlfeng0509/QuantVGGT。
21. SceneWeaver: All-in-One 3D Scene Synthesis with an Extensible and
Self-Reflective Agent
作者: Yandan Yang, Baoxiong Jia, Shujie Zhang, Siyuan Huang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-24 | 👍 点赞数: 8
摘要:
论文标题:SceneWeaver:基于可扩展且具备自我反思能力的智能体的一体化3D场景生成方法
中文摘要:
随着具身人工智能(Embodied AI)的发展,室内场景合成变得愈发重要。该领域需要不仅在视觉上逼真,而且在物理上合理、功能上多样的三维环境。尽管近期的方法在视觉保真度方面取得了进展,但它们通常局限于固定的场景类别,缺乏足够的物体层级细节和物理一致性,并且难以满足复杂的用户指令。本文提出SceneWeaver——一种具备反思能力的智能体框架,通过基于工具的迭代优化机制,统一了多种场景生成范式。SceneWeaver的核心是一个基于语言模型的规划模块,能够从一系列可扩展的场景生成工具中进行选择,这些工具涵盖数据驱动的生成模型、基于视觉的方法以及基于大语言模型(LLM)的技术,并在物理合理性、视觉真实感以及与用户输入的语义一致性等方面进行自我评估,从而实现引导式决策。这种闭环的“推理-行动-反思”设计使智能体能够识别语义不一致问题,调用针对性工具,并在多次迭代中持续优化场景。在常见及开放词汇范围内的房间类型上开展的大量实验表明,SceneWeaver不仅在物理性、视觉质量和语义对齐等指标上优于先前方法,还能有效泛化至包含多样化指令的复杂场景,向通用型三维环境生成迈出了重要一步。项目网站:https://scene-weaver.github.io/。
22. BESPOKE: Benchmark for Search-Augmented Large Language Model
Personalization via Diagnostic Feedback
作者: Hyunseo Kim, Sangam Lee, Kwangwook Seo, Dongha Lee
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 6
摘要:
论文标题:BESPOKE:基于诊断反馈的检索增强型大语言模型个性化评测基准
中文摘要:
检索增强型大语言模型(LLMs)通过将信息检索与文本生成相结合,提升了信息获取任务的效果,相比传统搜索系统显著降低了用户的认知负担。然而,现有模型仍难以充分满足用户多样化的需求,这要求系统能够识别同一查询在不同用户之间的意图差异,并以用户偏好的形式提供信息。尽管近期如ChatGPT和Gemini等系统尝试利用用户历史记录实现个性化,但针对此类个性化能力的系统性评估仍鲜有研究。为填补这一空白,我们提出了BESPOKE——一个用于评估检索增强型大语言模型个性化的现实化基准。BESPOKE具有两个核心特性:一是“真实性”,即通过直接收集真实人类的对话与搜索历史构建数据;二是“可诊断性”,即为模型回复配备细粒度的偏好评分与诊断性反馈。该基准通过长期、深度参与的人工标注构建,标注人员贡献了自身的交互历史,撰写带有详细信息需求的查询,并对回复进行打分及提供诊断反馈。基于BESPOKE,我们开展了系统性分析,揭示了信息获取任务中有效个性化所需的关键要素,为细粒度评估个性化检索增强型大语言模型奠定了基础。我们的代码与数据已公开发布于 https://augustinlib.github.io/BESPOKE/。
23. Behind RoPE: How Does Causal Mask Encode Positional Information?
作者: Junu Kim, Xiao Liu, Zhenghao Lin, Lei Ji, Yeyun Gong, Edward Choi
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 6
摘要:
论文标题:深入探究RoPE:因果掩码如何编码位置信息?
中文摘要: 尽管诸如RoPE之类的显式位置编码是Transformer解码器中位置信息的主要来源,但因果掩码(causal mask)同样提供了位置信息。在本研究中,我们证明了即使在没有参数或输入中不存在因果依赖的情况下,因果掩码也能在注意力分数中诱导出依赖于位置的模式。我们的理论分析表明,这种诱导出的注意力模式倾向于偏好邻近的查询-键对,这一行为与常见的位置编码相似。实证分析进一步证实,训练后的模型确实表现出相同的行为,且所学习到的参数会进一步增强这些模式。值得注意的是,我们发现因果掩码与RoPE之间的相互作用会将RoPE原本的相对注意力分数模式扭曲为非相对的形式。我们在多种现代大语言模型中一致观察到了这一现象,这表明在考虑位置信息来源时,因果掩码应与显式位置编码一同被重视。
24. When Judgment Becomes Noise: How Design Failures in LLM Judge Benchmarks
Silently Undermine Validity
作者: Benjamin Feuer, Chiung-Yi Tseng, Astitwa Sarthak Lathe, Oussama Elachqar, John P Dickerson
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-24 | 👍 点赞数: 6
摘要:
论文标题:当判断变为噪声:大语言模型裁判基准中的设计缺陷如何悄然削弱有效性
中文摘要:
大语言模型(LLM)裁判基准正被越来越多地用于评估复杂模型行为,但其设计引入了传统基于真实标签的基准所不具备的失效模式。我们认为,若缺乏明确的评估目标和可验证的结构设计,这些基准所产生的排名可能看似高度可信,实则很大程度上仅为噪声。为此,我们提出两种机制来诊断此类问题。架构遵循度(schematic adherence)用于量化裁判的整体判决中有多少比例可由明确的评估架构解释,从而揭示裁判偏离自身评分标准时产生的无法解释的方差;心理测量有效性(psychometric validity)则整合内部一致性和区分效度信号,以衡量任何一次基准测试中不可约简的不确定性。我们将这些工具应用于Arena-Hard Auto基准,发现多个主流裁判存在严重的架构不一致与因子坍缩现象:例如,DeepSeek-R1-32B模型的无法解释方差超过90%,而大多数评判维度之间的因子相关性高达0.93以上。我们还发现,Arena-Hard Auto所采用的ELO风格聚合方法会进一步压缩并掩盖真实的排名不确定性。研究结果凸显了若干关键的设计缺陷,这些缺陷严重损害了基准的有效性,并提出了构建更具边界清晰性、注重可靠性的LLM裁判基准的可操作原则。我们的代码已公开,地址为 https://anonymous.4open.science/r/judgment-to-noise-947D/README.md
25. OverLayBench: A Benchmark for Layout-to-Image Generation with Dense
Overlaps
作者: Bingnan Li, Chen-Yu Wang, Haiyang Xu, Xiang Zhang, Ethan Armand, Divyansh Srivastava, Xiaojun Shan, Zeyuan Chen, Jianwen Xie, Zhuowen Tu
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-23 | 👍 点赞数: 6
摘要:
论文标题:OverLayBench:一种用于密集重叠场景下布局到图像生成的基准
中文摘要:
尽管布局到图像生成领域取得了持续进展,现有方法在处理包含显著边界框重叠的布局时仍面临困难。我们识别出两大主要挑战:(1)大面积的重叠区域;(2)语义差异较小的重叠实例。通过定性示例和定量分析,我们展示了这些因素如何导致生成质量下降。为了系统评估这一问题,我们提出了OverLayScore——一种新颖的指标,用于量化边界框重叠的复杂程度。我们的分析表明,现有的基准数据集偏向于OverLayScore值较低的简单案例,限制了其在更具挑战性条件下评估模型性能的有效性。为弥补这一差距,我们推出了OverLayBench,这是一个包含高质量标注的新基准数据集,覆盖不同层次的OverLayScore,并具有均衡的分布。作为提升复杂重叠场景下生成性能的初步尝试,我们还提出了CreatiLayout-AM,该模型在一个精心筛选的非完整掩码(amodal mask)数据集上进行了微调。我们的各项贡献共同为在更真实且具挑战性的场景下实现鲁棒的布局到图像生成奠定了基础。项目链接:https://mlpc-ucsd.github.io/OverLayBench。
26. Interactive Recommendation Agent with Active User Commands
作者: Jiakai Tang, Yujie Luo, Xunke Xi, Fei Sun, Xueyang Feng, Sunhao Dai, Chao Yi, Dian Chen, Zhujin Gao, Yang Li, Xu Chen, Wen Chen, Jian Wu, Yuning Jiang, Bo Zheng
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 5
摘要:
论文标题:基于主动用户指令的交互式推荐代理
中文摘要:
传统的推荐系统依赖于被动的反馈机制,限制用户只能进行简单的选择,例如“喜欢”或“不喜欢”。然而,这类粗粒度的信号难以捕捉用户行为背后的细微动机与真实意图。相应地,现有系统也无法识别究 竟是哪些具体的物品属性导致了用户的满意或不满,从而导致用户偏好建模不准确。这些根本性局限造成了用户意图与系统理解之间持续存在的鸿沟,最终削弱了用户满意度并影响系统的整体有效性。
为解决上述问题,我们提出了“交互式推荐信息流”(Interactive Recommendation Feed, IRF),这是一种开创性的范式,能够在主流推荐信息流中支持自然语言指令的输入。与传统系统将用户局限于被动的隐式行为影响不同,IRF通过实时的自然语言指令,赋予用户对推荐策略进行主动、显式控制的能力。为支撑这一范式,我们设计了RecBot——一种双代理架构:其中解析代理(Parser Agent)将自然语言表达转化为结构化的用户偏好,而规划代理(Planner Agent)则动态协调自适应的工具链,实现即时的策略调整。为了支持实际部署,我们采用基于仿真的知识蒸馏方法,在保持强大推理能力的同时实现高效的运行性能。通过大量离线实验以及长期在线实验验证,RecBot在用户满意度和业务指标方面均展现出显著提升。
27. CompLLM: Compression for Long Context Q&A
作者: Gabriele Berton, Jayakrishnan Unnikrishnan, Son Tran, Mubarak Shah
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-23 | 👍 点赞数: 5
摘要:
论文标题:CompLLM:面向长上下文问答的压缩方法
中文摘要:
大型语言模型(Large Language Models, LLMs)在处理长上下文时面临显著的计算挑战,这源于自注意力机制的平方复杂度。尽管软性上下文压缩方法(即将输入文本映射为更小的潜在表示)已展现出一定潜力,但其在实际应用中的采纳仍受限。现有技术通常将整个上下文作为一个整体进行压缩,导致压缩过程具有平方级复杂度,并且无法在具有重叠上下文的不同查询之间复用计算结果。本文提出 CompLLM,一种面向实际部署的软压缩技术。与整体处理上下文不同,CompLLM 将上下文划分为多个片段,并对每个片段独立进行压缩。这一简单的设计带来了三个关键特性:高效性,压缩步骤的时间复杂度随上下文长度线性增长;可扩展性,使得在短序列(例如 1k token)上训练的模型能够推广至长达 100k token 的上下文;以及可复用性,允许将压缩后的片段缓存并在不同查询间重复使用。实验结果表明,在实现 2 倍压缩率的情况下,CompLLM 在长上下文场景中可将首令牌生成时间(Time To First Token, TTFT)加速最高达 4 倍,并将键值缓存(KV cache)大小减少 50%。此外,CompLLM 的性能与使用未压缩上下文的情况相当,甚至在极长序列上表现更优,验证了其有效性与实用价值。
28. MOSS-ChatV: Reinforcement Learning with Process Reasoning Reward for
Video Temporal Reasoning
作者: Sicheng Tao, Jungang Li, Yibo Yan, Junyan Zhang, Yubo Gao, Hanqian Li, ShuHang Xun, Yuxuan Fan, Hong Chen, Jianxiang He, Xuming Hu
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 4
摘要:
论文标题:MOSS-ChatV:基于过程推理奖励的强化学习用于视频时序推理
中文摘要:
视频推理已成为多模态大语言模型(MLLMs)的一项关键能力,要求模型从静态感知转向对复杂场景中时间动态的连贯理解。然而,现有的MLLMs常常表现出推理过程不一致的问题,即即使最终答案正确,中间推理步骤仍可能偏离视频的实际动态,从而损害了模型的可解释性与鲁棒性。为解决这一问题,我们提出了MOSS-ChatV,一种结合基于动态时间规整(Dynamic Time Warping, DTW)的过程奖励的强化学习框架。该框架采用基于规则的奖励机制,将模型的推理轨迹与时间上对齐的参考文本进行匹配,从而在无需额外奖励模型的情况下实现高效的过程监督。我们进一步提出动态状态预测作为衡量视频推理能力的关键指标,并构建了MOSS-Video——一个包含标注推理轨迹的基准数据集,其中训练集用于微调MOSS-ChatV,保留的测试集则用于评估。MOSS-ChatV在MOSS-Video(测试集)上取得了87.2%的成绩,同时在MVBench和MMVU等通用视频理解基准上也实现了性能提升。该框架在Qwen2.5-VL和Phi-2等多种模型架构上均表现出一致的增益,验证了其广泛的适用性。通过GPT-4o作为评判者的评估进一步表明,MOSS-ChatV生成的推理过程更加一致且稳定。
29. StyleBench: Evaluating thinking styles in Large Language Models
作者: Junyu Guo, Shangding Gu, Ming Jin, Costas Spanos, Javad Lavaei
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 3
摘要:
论文标题:StyleBench:大语言模型思维风格的评估
中文摘要:
大语言模型(LLM)的有效性在很大程度上受到其提示中所采用的推理策略,即思维风格的影响。然而,这些推理风格、模型架构与任务类型之间的相互作用仍缺乏深入理解。为此,我们提出了StyleBench——一个用于在多种任务和模型上系统评估推理风格的综合性基准。我们在五类典型的推理任务上,对五种具有代表性的推理风格进行了评估,包括思维链(Chain of Thought, CoT)、思维树(Tree of Thought, ToT)、思维算法(Algorithm of Thought, AoT)、思维草图(Sketch of Thought, SoT)以及草稿链(Chain-of-Draft, CoD)。实验涵盖了15个来自主流模型家族(LLaMA、Qwen、Mistral、Gemma、GPT-OSS、Phi 和 DeepSeek)的开源模型,参数规模从2.7亿到1200亿不等。大规模分析结果表明,并不存在一种在所有场景下都最优的推理风 格。我们发现,推理策略的有效性高度依赖于模型规模和任务类型:基于搜索的推理方法(如AoT、ToT)在开放性问题中表现优异,但需要大规模模型支持;而简洁型推理风格(如SoT、CoD)则在定义明确的任务上实现了显著的效率提升。此外,我们识别出若干关键行为模式:较小规模的模型常常无法遵循输出指令,倾向于直接猜测;而推理的鲁棒性则随模型规模增大而增强。本研究为在不同约束条件下选择最优推理策略提供了重要指导。我们已将该基准开源,代码地址:https://github.com/JamesJunyuGuo/Style_Bench。
30. Discrete Diffusion for Reflective Vision-Language-Action Models in
Autonomous Driving
作者: Pengxiang Li, Yinan Zheng, Yue Wang, Huimin Wang, Hang Zhao, Jingjing Liu, Xianyuan Zhan, Kun Zhan, Xianpeng Lang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-24 | 👍 点赞数: 3
摘要:
论文标题:用于自动驾驶中反射式视觉-语言-动作模型的离散扩散方法
中文摘要:
端到端(E2E)方案已成为自动驾驶系统的主流方法,其中视觉-语言-动作(VLA)模型代表了一种新范式,该范式利用视觉-语言模型(VLM)预训练的多模态知识来理解和交互复杂的现实世界环境。然而,这些方法仍受限于模仿学习的固有局限性,难以在训练过程中有效编码物理规律。现有方法通常依赖复杂的基于规则的后处理优化,或采用主要局限于仿真的强化学习,亦或使用需要昂贵梯度计算的扩散引导技术。为应对这些挑战,本文提出ReflectDrive,一种新颖的基于学习的框架,通过离散扩散机制集成反射模块,以实现安全轨迹生成。我们首先对二维驾驶空间进行离散化,构建动作码本,从而可通过微调使预训练的扩散语言模型适用于规划任务。本方法的核心是一种具备安全意识的反射机制,能够在无需梯度计算的情况下进行迭代式自我修正。我们的方法首先基于目标条件生成轨迹,以建模多模态驾驶行为;在此基础上,采用局部搜索方法识别不安全的动作标记,并确定可行解,作为基于图像修复(inpainting)的再生过程的安全锚点。在NAVSIM基准上的实验结果表明,ReflectDrive在安全关键型轨迹生成方面展现出显著优势,为自动驾驶系统提供了一种可扩展且可靠的解决方案。
31. Thinking While Listening: Simple Test Time Scaling For Audio
Classification
作者: Prateek Verma, Mert Pilanci
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-24 | 👍 点赞数: 3
摘要:
论文标题:听觉中的思考:面向音频分类的简单测试时扩展方法
中文摘要:
我们提出了一种框架,使神经网络模型能够在“听”日常声音的同时进行“思考”,从而提升音频分类性能。受大型语言模型在推理能力方面近期进展的启发,我们探讨了两个核心问题:(i)如何将“思考”机制融入现有的音频分类流程中,以实现类别空间中的推理并提升性能;(ii)能否从零开始设计一种新架构,同时支持“思考”过程和测试时扩展(test-time scaling)?我们证明,在这两种设定下,所提出的模型均表现出更高的分类准确率。通过利用测试时扩展,随着采样推理路径数量的增加,模型性能持续提升。此外,我们评估了两个开源推理模型 GPT-OSS-20B 和 Qwen3-14B,结果表明,尽管这些模型具备零样本推理能力,但一种轻量级方法——仅对冻结的小型模型(如 GPT-2)的嵌入矩阵进行重新训练——即可超越参数规模达数十亿的基于文本的推理模型的性能。
32. The Unanticipated Asymmetry Between Perceptual Optimization and
Assessment
作者: Jiabei Zhang, Qi Wang, Siyu Wu, Du Chen, Tianhe Wu
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 2
摘要:
论文标题:感知优化与评估之间的意外不对称性
中文摘要:
感知优化主要由保真度目标驱动,该目标同时保证语义一致性和整体视觉真实性,而对抗性目标则通过增强感知清晰度和细粒度细节提供补充性的优化。尽管这些目标至关重要,但它们作为优化目标的有效性与其作为图像质量评估(Image Quality Assessment, IQA)指标的能力之间的相关性仍缺乏深入研究。在本研究中,我们进行了系统性分析,揭示了感知优化与评估之间存在一种意料之外的不对称性:在IQ任务中表现优异的保真度度量,并不一定在感知优化中同样有效,这种不一致性在对抗训练下尤为明显。此外,尽管判别器在优化过程中能有效抑制伪影,但其学习到的表征在用作IQA模型的骨干网络初始化时,所带来的增益十分有限。除了这一不对称现象外,我们的研究还进一步表明,判别器的设计在优化过程中起着决定性作用,其中基于图像块(patch-level)和卷积结构的架构在细节重建方面显著优于标准结构或基于Transformer的替代方案。这些发现深化了人们对损失函数设计及其与IQA可迁移性之间关系的理解,为构建更加原则化的感知优化方法奠定了基础。
33. MI-Fuse: Label Fusion for Unsupervised Domain Adaptation with
Closed-Source Large-Audio Language Model
作者: Hsiao-Ying Huang, Yi-Cheng Lin, Hung-yi Lee
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 2
摘要:
论文标题:MI-Fuse:基于闭源大音频语言模型的无监督域自适应标签融合方法
中文摘要:
大型音频-语言模型(Large Audio-Language Models, LALMs)在语音任务中展现出强大的零样本能力,显示出其在语音情感识别(SER)中的应用潜力。然而,在实际部署中,由于存在域不匹配问题,且源域数据不可获取、强大的LALM仅能通过API访问,导致SER性能往往下降。本文提出一个关键问题:当仅有未标注的目标域音频和仅提供API接口的LALM时,能否训练一个学生模型,使其在目标域上的表现超越该LALM?为此,我们提出了MI-Fuse——一种去噪标签融合框架,该框架引入一个在源域上训练的SER分类器作为辅助教师模型,以增强LALM的能力。该框架从两个教师模型中抽取多个随机预测,利用基于互信息的不确定性对它们的均值分布进行加权,并采用指数移动平均教师机制来稳定训练过程。在三个公开情感数据集和六种跨域迁移场景下的实验结果表明,该方法 consistently 提升了性能,学生模型不仅超过了LALM的表现,且相较最强基线方法提升了3.9%。本方法在无需共享源域数据的前提下增强了情感感知语 音系统的适应能力,实现了更贴近真实应用场景的域自适应。
34. Blueprints of Trust: AI System Cards for End to End Transparency and
Governance
作者: Huzaifa Sidhpurwala, Emily Fox, Garth Mollett, Florencio Cano Gabarda, Roman Zhukov
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-23 | 👍 点赞数: 2
摘要:
论文标题:信任的蓝图:面向端到端透明性与治理的AI系统卡片
中文摘要:
本文提出了“风险感知系统卡片”(Hazard-Aware System Card, HASC),这是一种旨在增强人工智能(AI)系统在开发与部署过程中透明度与问责性的新型框架。HASC 在现有模型卡片(model card)和系统卡片(system card)概念的基础上,整合了 AI 系统安全与安保状况的全面、动态记录。该框架提出了一套标准化标识体系,包括一种新型的 AI 安全风险标识符(AI Safety Hazard ID, ASH ID),用以补充现有的安全标识(如 CVE),从而实现对已修复缺陷的清晰、一致的沟通。通过提供一个单一且可访问的真实信息来源,HASC 使开发者及相关利益相关方能够在 AI 系统的整个生命周期中就其安全性做出更明智的决策。最后,本文还将所提出的 AI 系统卡片与 ISO/IEC 42001:2023 标准进行了比较,并探讨了二者如何相互补充,共同提升 AI 系统的透明度与问责性。
35. Evaluating Large Language Models for Detecting Antisemitism
作者: Jay Patel, Hrudayangam Mehta, Jeremy Blackburn
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-22 | 👍 点赞数: 1
摘要:
论文标题:评估大语言模型在反犹太主义检测中的应用
中文摘要:
检测仇恨内容是一项具有挑战性且重要的任务。自动化工具(如机器学习模型)可以提供帮助,但需要持续训练以适应社交媒体不断变化的环境。在本研究中,我们评估了八种开源大语言模型(LLMs)检测反犹太主义内容的能力,特别利用上下文中的定义作为政策指导。我们探讨了多种提示技术,并设计了一种新的类思维链(CoT-like)提示方法——引导式思维链(Guided-CoT)。Guided-CoT 能有效处理上下文中的政策定义,在所有评估的模型中均提升了性能,且不受解码配置、模型规模或推理能力的影响。值得注意的是,Llama 3.1 70B 的表现优于经过微调的 GPT-3.5。此外,我们分析了大语言模型的错误类型,并引入了量化模型生成推理过程中语义偏离程度的新指标,揭示了不同模型之间显著的差异和矛盾行为。我们的实验突出了各类大语言模型在实用性、可解释性和可靠性方面的差异。