每日论文 - 2025年09月26日
论文总数: 35
1. VCRL: Variance-based Curriculum Reinforcement Learning for Large
Language Models
作者: Guochao Jiang, Wenfeng Feng, Guofeng Quan, Chuzhan Hao, Yuewei Zhang, Guohua Liu, Hao Wang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-24 | 👍 点赞数: 109
摘要:
论文标题:VCRL:基于方差的课程强化学习用于大语言模型
中文摘要:
基于策略的强化学习目前在提升大语言模型(LLM)数学推理能力方面发挥着重要作用。然而,现有的基于 rollout 的强化学习方法(如 GRPO、DAPO、GSPO 等)未能显式地考虑大语言模型对不同难度样本的学习能力,这与人类在数学推理任务中从易到难的认知过程相悖。直观上,我们发现强化学习中的 rollout 组奖励方差在一定程度上反映了当 前样本对大语言模型而言的难度:过于简单或过于困难的样本具有较低的方差,而中等难度的样本则表现出较高的方差。基于这一观察,我们提出了 VCRL——一种基于组奖励方差的课程式强化学习框架,能够根据奖励方差动态调控训练样本的难度。在五个数学推理基准数据集和两种大语言模型上的实验结果表明,VCRL 显著优于当前的大语言模型强化学习基线方法。
2. MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and
Open Resources
作者: Sicong Leng, Jing Wang, Jiaxi Li, Hao Zhang, Zhiqiang Hu, Boqiang Zhang, Yuming Jiang, Hang Zhang, Xin Li, Lidong Bing, Deli Zhao, Wei Lu, Yu Rong, Aixin Sun, Shijian Lu
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 90
摘要:
论文标题:MMR1:基于方差感知采样与开放资源的多模态推理能力增强
中文摘要:
大规模多模态推理模型已取得快速进展,但其发展受到两个主要因素的制约:一是缺乏公开的大规模、高质量长链式思维(Chain-of-Thought, CoT)数据;二是后训练阶段强化学习(Reinforcement Learning, RL)算法的不稳定性。当前RL 微调的标准框架——组相对策略优化(Group Relative Policy Optimization, GRPO),在奖励方差较低时容易出现梯度消失问题,从而削弱优化信号并影响收敛效果。本文提出三项贡献:(1)我们提出了方差感知采样(Variance-Aware Sampling, VAS),这是一种基于方差促进评分(Variance Promotion Score, VPS)的数据选择策略,结合输出结果的方差与推理路径的多样性,以提升奖励方差,稳定策略优化过程;(2)我们发布了大规模且精心筛选的资源,包含约160万条长链CoT冷启动数据和约1.5万对RL问答数据,旨在保证数据的质量、难度与多样性,并提供完全可复现的端到端训练代码库;(3)我们开源了一系列多种规模的多模态推理模型,为学术界建立了标准化的基准。在多个数学推理基准上的实验验证了所构建数据集与提出的VAS方法的有效性,全面的消融研究与分析进一步揭示了各组件的贡献。此外,我们从理论上证明了奖励方差对策略梯度期望幅度的下界约束,而VAS正是实现该理论保障的一种实用机制。我们的代码、数据及模型检查点已公开于 https://github.com/LengSicong/MMR1。
3. SciReasoner: Laying the Scientific Reasoning Ground Across Disciplines
作者: Yizhou Wang, Chen Tang, Han Deng, Jiabei Xiao, Jiaqi Liu, Jianyu Wu, Jun Yao, Pengze Li, Encheng Su, Lintao Wang, Guohang Zhuang, Yuchen Ren, Ben Fei, Ming Hu, Xin Chen, Dongzhan Zhou, Junjun He, Xiangyu Yue, Zhenfei Yin, Jiamin Wu, Qihao Zheng, Yuhao Zhou, Huihui Xu, Chenglong Ma, Yan Lu, Wenlong Zhang, Chunfeng Song, Philip Torr, Shixiang Tang, Xinzhu Ma, Wanli Ouyang, Lei Bai
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 86
摘要:
论文标题:SciReasoner:构建跨学科的科学推理基础
中文摘要:
我们提出了一种科学推理基础模型,能够将自然语言与异构的科学表示形式进行对齐。该模型在一个包含2060亿token的语料库上进行了预训练,涵盖科学文本、纯序列以及序列-文本配对数据,随后通过监督微调(SFT)在4000万条指令上进行对齐,并采用退火冷启动自举方法激发长篇幅的思维链推理,结合任务特定奖励塑造的强化学习,从而内化严谨的科学推理能力。模型支持四大类功能,覆盖多达103项科研工作流中的任务:(i)文本与科学格式之间的忠实转换;(ii)文本/知识提取;(iii)性质预测;(iv)性质分类;(v)无条件与条件序列生成及设计。与专用系统相比,我们的方法拓展了指令覆盖范围,提升了跨领域泛化能力,并增强了输出的准确性。我们详细阐述了数据整理与训练过程,并证明跨学科学习显著增强了知识迁移能力和下游任务的可靠性。该模型、指令微调数据集及评估代码已开源,发布地址为 https://huggingface.co/SciReason 和 https://github.com/open-sciencelab/SciReason。
4. Tree Search for LLM Agent Reinforcement Learning
作者: Yuxiang Ji, Ziyu Ma, Yong Wang, Guanhua Chen, Xiangxiang Chu, Liaoni Wu
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 70
摘要:
论文标题:面向大语言模型智能体强化学习的树搜索方法
中文摘要:
近年来,强化学习(Reinforcement Learning, RL)的进展显著提升了大语言模型(Large Language Models, LLMs)作为智能体的能力。在长期、多轮交互的智能体任务中,现有仅依赖结果奖励的方法常常面临监督信号稀疏的问题。为应对这一挑战,本文提出基于树搜索的分组相对策略优化方法(Tree-based Group Relative Policy Optimization, Tree-GRPO),这是一种基于树搜索的智能体强化学习框架,其中每个树节点代表一个完整的智能体交互步骤。通过共享共同前缀,树搜索采样能够在固定的token或工具调用预算内显著增加可实现的 rollout 数量。此外,我们发现,即使仅使用结果奖励,树状结构的轨迹也自然支持构建逐步骤的过程监督信号。基于此,Tree-GRPO 在树内和树间两个层次上估计分组的相对优势。通过理论分析,我 们证明树内层级的分组相对策略优化目标与逐步骤的直接偏好学习(direct preference learning)目标等价。在11个数据集和3类问答任务上的实验结果表明,所提出的基于树结构的强化学习方法优于基于链式结构的强化学习方法。
5. Seedream 4.0: Toward Next-generation Multimodal Image Generation
作者: Team Seedream, Yunpeng Chen, Yu Gao, Lixue Gong, Meng Guo, Qiushan Guo, Zhiyao Guo, Xiaoxia Hou, Weilin Huang, Yixuan Huang, Xiaowen Jian, Huafeng Kuang, Zhichao Lai, Fanshi Li, Liang Li, Xiaochen Lian, Chao Liao, Liyang Liu, Wei Liu, Yanzuo Lu, Zhengxiong Luo, Tongtong Ou, Guang Shi, Yichun Shi, Shiqi Sun, Yu Tian, Zhi Tian, Peng Wang, Rui Wang, Xun Wang, Ye Wang, Guofeng Wu, Jie Wu, Wenxu Wu, Yonghui Wu, Xin Xia, Xuefeng Xiao, Shuang Xu, Xin Yan, Ceyuan Yang, Jianchao Yang, Zhonghua Zhai, Chenlin Zhang, Heng Zhang, Qi Zhang, Xinyu Zhang, Yuwei Zhang, Shijia Zhao, Wenliang Zhao, Wenjia Zhu
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-24 | 👍 点赞数: 60
摘要:
论文标题:Seedream 4.0:迈向下一代多模态图像生成
中文摘要:
本文提出 Seedream 4.0,一种高效且高性能的多模态图像生成系统,能够在统一框架下实现文本到图 像(T2I)合成、图像编辑以及多图融合生成。我们设计了一种高效的扩散变换器结构,并配备强大的变分自编码器(VAE),可显著减少图像 token 数量,从而支持模型的高效训练,并能够快速生成原生高分辨率图像(例如 1K–4K)。Seedream 4.0 在涵盖多样化分类体系和知识导向概念的数十亿文本-图像数据对上进行了预训练。通过覆盖数百个垂直场景的全面数据采集,结合优化的训练策略,确保了大规模训练的稳定性,并具备出色的泛化能力。通过引入精心微调的视觉语言模型(VLM),我们实现了面向 T2I 与图像编辑任务的多模态后训练联合优化。在推理加速方面,我们融合了对抗性蒸馏、分布匹配、量化技术以及推测解码(speculative decoding)等方法,在不依赖 LLM/VLM 作为位置编码模型的情况下,生成一张 2K 图像的推理时间最快可达 1.8 秒。大量实验评估表明,Seedream 4.0 在文本到图像生成和多模态图像编辑任务上均达到了业界领先水平。尤其在复杂任务中展现出卓越的多模态能力,包括精确的图像编辑、上下文内推理、多图参考生成,以及多张输出图像的生成。该系统将传统的 T2I 模型拓展为更具交互性和多维创作能力的工具,推动了生成式人工智能在创意表达与专业应用领域的边界。Seedream 4.0 现已可通过 https://www.volcengine.com/experience/ark?launch=seedream 访问体验。
6. Hunyuan3D-Omni: A Unified Framework for Controllable Generation of 3D
Assets
作者: Team Hunyuan3D, Bowen Zhang, Chunchao Guo, Haolin Liu, Hongyu Yan, Huiwen Shi, Jingwei Huang, Junlin Yu, Kunhong Li, Linus, Penghao Wang, Qingxiang Lin, Sicong Liu, Xianghui Yang, Yixuan Tang, Yunfei Zhao, Zeqiang Lai, Zhihao Liang, Zibo Zhao
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 32
摘要:
论文标题:Hunyuan3D-Omni:一种用于可控生成3D资产的统一框架
中文摘要:
近年来,原生3D生成模型的进展显著加快了游戏、电影和设计领域的资产创建。然而,大多数现有方法仍主要依赖图像或文本作为条件输入,缺乏细粒度的跨模态控制能力,限制了生成过程的可控性及实际应用。为弥补这一不足,我们提出了Hunyuan3D-Omni——一个基于Hunyuan3D 2.1构建的、支持细粒度可控3D资产生成的统一框架。除了图像外,Hunyuan3D-Omni还支持点云、体素、边界框以及骨骼姿态先验等多种条件信号输入,从而实现对几何形状、拓扑结构和姿态的精确控制。与为不同模态设计独立输出头的传统方法不同,我们的模型在单一的跨模态架构中实现了所有输入信号的统一处理。我们采用一种渐进式、难度感知的采样策略进行训练:在每个训练样本中仅选择一种控制模态,并倾向于更多地采样较难的信号(如骨骼姿态),同时降低简单信号(如点云)的采样权重。该策略有助于提升多模态融合的鲁棒性,并能优雅地处理输入缺 失的情况。实验结果表明,这些额外的控制机制不仅提高了生成精度,还支持几何感知的形态变换,并增强了在实际生产流程中的稳健性。
7. AutoIntent: AutoML for Text Classification
作者: Ilya Alekseev, Roman Solomatin, Darina Rustamova, Denis Kuznetsov
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 25
摘要:
论文标题:AutoIntent:面向文本分类的自动化机器学习
中文摘要:
AutoIntent 是一个用于文本分类任务的自动化机器学习工具。与现有解决方案不同,AutoIntent 提供了端到端的自动化功能,包括嵌入模型选择、分类器优化以及决策阈值调优,且全部集成于一个模块化、类似 scikit-learn 的接口中。该框架设计支持多标签分类和超出范围(out-of-scope)检测。在标准的意图分类数据集上,AutoIntent 表现出优于现有自动化机器学习工具的性能,同时使用户能够在效果与资源消耗之间实现有效权衡。
8. TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them
作者: Yidong Wang, Yunze Song, Tingyuan Zhu, Xuanwang Zhang, Zhuohao Yu, Hao Chen, Chiyu Song, Qiufeng Wang, Cunxiang Wang, Zhen Wu, Xinyu Dai, Yue Zhang, Wei Ye, Shikun Zhang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 22
摘要:
论文标题:TrustJudge:大模型作为评判者的不一致性及其缓解方法
中文摘要:
将大语言模型(Large Language Models, LLMs)用作自动评估工具(即“LLM-as-a-judge”)的做法,暴露出当前评估框架中存在的严重不一致问题。本文识别出两类根本性的不一致性:(1)评分比较不一致性,即在成对比较中得分较低的回复反而优于得分较高的回复;(2)成对传递性不一致性,表现为出现循环偏好链(如 A > B > C > A)以及等价关系矛盾(如 A = B = C ≠ A)。我们认为,这些问题源于离散评分系统中的信息丢失,以及成对比较过程中模糊的平局判断。为此,我们提出 TrustJudge——一种概率化评估框架,通过两项关键技术改进现有局限:1)分布敏感型评分机制,从离散评分的概率分布中计算连续期望值,保留信息熵以实现更精确的打分;2)似然感知型聚合机制,利用双向偏好概率或困惑度(perplexity)来解决传递性违背问题。我们还形式化地分析了当前 LLM-as-a-judge 框架的理论局限,并展示了 TrustJudge 如何克服这些缺陷。在使用 Llama-3.1-70B-Instruct 作为评判模型并基于我们构建的数据集进行评估时,TrustJudge 将评分比较不一致性降低了 8.43%(从 23.32% 下降至 14.89%),成对传递性不一致性降低了 10.82%(从 15.22% 下降至 4.40%),同时保持了更高的评估准确率。本研究首次对 LLM-as-a-judge 范式中的评估框架不一致性进行了系统性分析,提供了兼具理论深度与实践价值的解决方案,以实现更可靠的自动化评估。该框架在多种模型架构和规模下均表现出稳定提升,能够在无需额外训练或人工标注的前提下,显著增强 LLM 评估的可信度。代码地址:https://github.com/TrustJudge/TrustJudge。
9. CE-GPPO: Controlling Entropy via Gradient-Preserving Clipping Policy
Optimization in Reinforcement Learning
作者: Zhenpeng Su, Leiyu Pan, Minxuan Lv, Yuntao Li, Wenping Hu, Fuzheng Zhang, Kun Gai, Guorui Zhou
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 16
摘要:
论文标题:CE-GPPO:通过梯度保持裁剪策略优化实现熵控制的强化学习方法
中文摘要:
强化学习(Reinforcement Learning, RL)已成为优化大语言模型(Large Language Models, LLMs)以处理复杂推理任务的一种强大范式。在此过程中,一个核心挑战在于对策略熵(policy entropy)的管理,该指标反映了训练过程中探索与利用之间的平衡。现有方法(如近端策略优化PPO及其变体)由于采用裁剪机制,会丢弃来自低概率词元(tokens)的宝贵梯度信号。我们系统地分析了熵的动态演化过程,揭示出这些被裁剪的词元在调节熵演变中扮演着关键但被忽视的角色。为此,我们提出了“通过梯度保持策略优化实现熵控制”(Controlling Entropy via Gradient-Preserving Policy Optimization, CE-GPPO),这是一种新颖的算法,能够以温和且有界的方式将原始PPO中被裁剪词元的梯度信息重新引入优化过程。通过控制位于裁剪区间之外词元的梯度幅度,CE-GPPO 能够有效实现探索与利用之间的权衡。我们提供了理论分析和实验证据,表明 CE-GPPO 能有效缓解熵的不稳定性。在数学推理基准上的大量实验结果表明,CE-GPPO 在不同模型规模下均持续优于多种强基线方法。
10. Residual Off-Policy RL for Finetuning Behavior Cloning Policies
作者: Lars Ankile, Zhenyu Jiang, Rocky Duan, Guanya Shi, Pieter Abbeel, Anusha Nagabandi
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-23 | 👍 点赞数: 16
摘要:
论文标题:用于微调行为克隆策略的残差离策略强化学习
中文摘要:
近年来,行为克隆(Behavior Cloning, BC)在实现高性能的视觉运动控制策略方面取得了显著进展。然而,这类方法受限于人类示范数据的质量、数据采集所需的人工成本,以及离线数据规模增大后性能提升逐渐饱和的问题。相比之下,强化学习(Reinforcement Learning, RL)通过智能体与环境的自主交互进行训练,在多个领域中已展现出卓越的表现。尽管如此,直接在真实世界机器人上训练RL策略仍面临诸多挑战,包括样本效率低下、安全性问题,以及在长视野任务中难以从稀疏奖励信号中学习,尤其是在高自由度(DoF)系统中更为突出。本文提出一种结合BC与RL优势的框架,采用残差学习的方式实现两者的融合。我们的方法将BC策略作为黑箱基础策略,利用样本高效的离策略RL来学习轻量级的逐步骤残差修正。我们证明,该方法仅需稀疏的二元奖励信号,即可在仿真环境和真实世界中有效提升高自由度系统的操作策略性能。特别地,据我们所知,本文首次成功实现了在具有灵巧手的人形机器人上的真实世界强化学习训练。实验结果表明,该方法在多种基于视觉的任务中达到了最先进的性能,为强化学习在现实场景中的实际部署提供了一条可行的技术路径。
项目网站:https://residual-offpolicy-rl.github.io
11. CHARM: Control-point-based 3D Anime Hairstyle Auto-Regressive Modeling
作者: Yuze He, Yanning Zhou, Wang Zhao, Jingwen Ye, Yushi Bai, Kaiwen Xiao, Yong-Jin Liu, Zhongqian Sun, Wei Yang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 15
摘要:
论文标题:CHARM:基于控制点的3D动漫发型自回归建模
中文摘要:
本文提出CHARM,一种新颖的参数化表示方法与生成框架,用于动漫发型建模。传统头发建模方法主要关注基于真实感的发丝或体素表示,而动漫发型具有高度风格化、分段结构化的几何特征,对现有技术提出了挑战。现有方法通常依赖密集网格建模或手工设计的样条曲线,导致编辑效率低下,且难以支持可扩展的学习任务。CHARM引入了一种紧凑且可逆的基于控制点的参数化表示方法,其中每张头发片(hair card)由一系列控制点表示,每个控制点仅用五个几何参数进行编码。这种高效且精确的表示方式既支持艺术家友好的设计,也适用于基于学习的生成。在此表示基础上,CHARM进一步提出一种自回归生成框架,能够从输入图像或点云中有效生成动漫发型。通过将动漫发型视为一种序列化的“发型语言”,我们的自回归Transformer模 型能够同时捕捉局部几何细节与整体发型拓扑结构,从而实现高保真度的动漫发型生成。为了支持动漫发型生成模型的训练与评估,我们构建了AnimeHair数据集,包含37,000个高质量的动漫发型样本,每个样本均提供分离的头发片和处理后的网格数据。大量实验表明,CHARM在重建精度与生成质量方面均达到最先进的性能,为动漫发型建模提供了一种表达力强且可扩展的解决方案。项目主页:https://hyzcluster.github.io/charm/
12. Thinking Augmented Pre-training
作者: Liang Wang, Nan Yang, Shaohan Huang, Li Dong, Furu Wei
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-24 | 👍 点赞数: 15
摘要:
论文标题:思维增强预训练
中文摘要: 本文提出了一种简单且可扩展的方法,通过在现有文本数据中增补思维轨迹(thinking trajectories)来提升大语言模型(LLM)训练的数据效率。近年来,大语言模型预训练所需的计算资源正以前所未有的速度增长,而高质量训练数据的获取却依然有限。因此,如何最大化利用现有数据成为一项重要的研究挑战。一个主要难点在于,在模型容量固定的情况下,某些高质量的token难以被有效学习,因为单个token背后的推理逻辑可能异常复杂且深层。为解决这一问题,我们提出了思维增强预训练(Thinking augmented Pre-Training, TPT),这是一种通用方法,通过自动生动生成的思维轨迹来增强原始文本数据。这种数据增强方式有效增加了训练数据的信息量,并通过逐步推理与分解,使原本难以学习的高质量token变得更加可学。我们将TPT应用于多种训练配置中,累计训练量达1000亿token,涵盖数据受限和数据充足条件下的预训练,以及从强大的开源检查点出发的中期训练。实验结果表明,该方法在不同规模和架构的模型上均显著提升了大语言模型的性能。值得注意的是,TPT将大语言模型预训练的数据效率提高了3倍。对于一个30亿参数的模型,在多个具有挑战性的推理基准测试上,其训练后的性能提升了超过10%。
13. Recon-Act: A Self-Evolving Multi-Agent Browser-Use System via Web
Reconnaissance, Tool Generation, and Task Execution
作者: Kaiwen He, Zhiwei Wang, Chenyi Zhuang, Jinjie Gu
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 12
摘要:
论文标题:Recon-Act:一种通过网页侦察、工具生成与 任务执行实现自我演化的多智能体浏览器使用系统
中文摘要:
近年来,多模态模型取得了显著进展,为智能化浏览器使用代理的发展奠定了基础。然而,在现实网页环境中执行多轮次、长视野的任务时,现有代理仍面临动作序列混乱以及执行过程中试错过多的问题。本文提出 Recon-Act,一种基于“侦察-行动”(Reconnaissance-Action)行为范式的自演化多智能体框架。该系统由侦察团队(Reconnaissance Team)与行动团队(Action Team)组成:前者负责对比分析与工具生成,后者负责意图分解、工具调度与执行。侦察团队通过对比失败轨迹与成功轨迹,推断出修正策略,并将其抽象为统一的广义工具概念,这些工具可表现为提示信息或基于规则的代码,并实时注册至工具库中。行动团队则利用这些针对性工具重新推理执行过程,从而构建了一个“数据—工具—行动—反馈”的闭环训练流程。按照本文提出的六级实现路线图,我们目前已实现第三级(仅需有限的人工干预)。借助通过侦察获得的广义工具,Recon-Act 显著提升了对未见过网站的适应能力以及在长视野任务上的可解性,在具有挑战性的 VisualWebArena 数据集上达到了最先进的性能水平。
14. Does FLUX Already Know How to Perform Physically Plausible Image
Composition?
作者: Shilin Lu, Zhuming Lian, Zihan Zhou, Shaocong Zhang, Chen Zhao, Adams Wai-Kin Kong
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 11
摘要:
论文标题:FLUX 是否已经具备执行物理上合理的图像合成的能力?
中文摘要:
图像合成旨在将用户指定的物体无缝地融入新场景中,但现有模型在处理复杂光照(如精确的阴影、水面反射)以及多样化、高分辨率输入时仍面临挑战。现代文本到图像扩散模型(例如 SD3.5、FLUX)已编码了重要的物理规律和分辨率先验知识,然而缺乏一种无需依赖潜在空间反演(latent inversion)或脆弱的注意力重构(attention surgery)即可充分释放这些先验的框架——潜在空间反演常导致物体姿态与上下文不匹配。为此,我们提出 SHINE,一种无需训练的高质量图像合成框架,实现无缝、高保真的对象插入并有效抑制误差。SHINE 引入了流形引导的锚点损失(manifold-steered anchor loss),利用预训练的定制化适配器(如 IP-Adapter)来引导潜在表示,在保持主体忠实还原的同时保护背景完整性。此外,我们提出了降质抑制引导(degradation-suppression guidance)和自适应背景融合机制,进一步消除低质量输出和可见拼接痕迹。为解决当前缺乏严格评测基准的问题,我们构建了 ComplexCompo 数据集,涵盖多种分辨率,并包含低光照、强照明、复杂阴影和反射表面等具有挑战性的条件。在 ComplexCompo 和 DreamEditBench 上的实验表明,SHINE 在标准指标(如 DINOv2)以及与人类感知对齐的评分(如 DreamSim、ImageReward、VisionReward)上均达到最先进的性能。代码与评测基准将在论文发表后公开发布。
15. Understanding the Thinking Process of Reasoning Models: A Perspective
from Schoenfeld's Episode Theory
作者: Ming Li, Nan Zhang, Chenrui Fan, Hong Jiao, Yanbin Fu, Sydney Peters, Qingshu Xu, Robert Lissitz, Tianyi Zhou
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-18 | 👍 点赞数: 11
摘要:
论文标题:理解推理模型的思维过程:基于Schoenfeld情景理论的视角
中文摘要:
尽管大推理模型(Large Reasoning Models, LRMs)能够生成 lengthy 的思维链推理内容,但我们仍缺乏一个系统性的框架来理解这些思维内容的结构。本文提出一种新方法,将Schoenfeld的情景理论(Episode Theory)——一种用于人类数学问题解决的经典认知框架——应用于分析LRM的推理轨迹。我们对模型在数学问题求解过程中生成的数千个句子和段落进行了标注,使用了七种认知标签(例如:规划(Plan)、执行(Implement)、验证(Verify))。由此构建了首个面向机器推理细粒度分析的公开基准数据集,包含大规模标注语料库以及详细的标注指南。初步分析揭示了LRM推理过程中的显著模式,例如不同认知状态之 间的转换动态。该框架为解读LRM的认知过程提供了理论基础,并为未来构建更可控、更透明的推理系统研究奠定了方法论基础。
16. V-GameGym: Visual Game Generation for Code Large Language Models
作者: Wei Zhang, Jack Yang, Renshuai Tao, Lingzheng Chai, Shawn Guo, Jiajun Wu, Xiaoming Chen, Ganqu Cui, Ning Ding, Xander Xu, Hu Wei, Bowen Zhou
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-24 | 👍 点赞数: 9
摘要:
论文标题:V-GameGym:面向代码大语言模型的视觉游戏生成基准
中文摘要:
代码大语言模型在编程任务中已展现出卓越的能力,然而当前的评测基准主要集中在单一模态,缺乏对视觉游戏开发场景的关注。大多数现有的与代码相关的基准仅评估语法正确性和执行准确性,忽视了可玩性、视觉美感和用户参与度等对实际应用至关重要的游戏特有指标。为弥补现有大语言模型在算法求解与竞赛级编程能力方面与真实游戏开发综合需求之间的差距,本文提出了V-GameGym——一个包含2,219个高质量样本的综合性基准,这些样本来自真实代码仓库,并按100个主题聚类组织,采用新颖的基于聚类的数据筛选方法,确保数据集在主题上的多样性与结构上的完整性。此外,我们设计了一个多模态评估框架,构建了基于完整UI沙箱环境的自动化、大语言模型驱动的视觉代码生成流水线。大量实验分析表明,V-GameGym有效弥合了代码生成准确性与实际游戏开发流程之间的鸿沟,为可视化编程及交互元素生成提供了可量化的质量评估体系。
17. UserRL: Training Interactive User-Centric Agent via Reinforcement
Learning
作者: Cheng Qian, Zuxin Liu, Akshara Prabhakar, Jielin Qiu, Zhiwei Liu, Haolin Chen, Shirley Kokane, Heng Ji, Weiran Yao, Shelby Heinecke, Silvio Savarese, Caiming Xiong, Huan Wang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-24 | 👍 点赞数: 9
摘要:
论文标题:UserRL:通过强化学习训练以用户为中心的交互式智能体
中文摘要:
强化学习(Reinforcement Learning, RL)在训练超越静态基准、能够进行动态多轮交互的智能体模型方面展现出巨大潜力。然而,这类智能体的最终价值在于其辅助用户的能力,而实际用户交互的多样性与动态性为此带来了严峻挑战。本文提出UserRL——一种统一的框架,通过标准化的gym环境结合模拟用户,实现对以用户为中心能力的训练与评估。我们系统地调整回合级奖励分配与轨迹级评分计算方式,分析不同设定在GRPO算法下的学习效果。在Qwen3系列模型上的实验揭示了三个关键发现:(i)监督微调(SFT)冷启动对于激活初始交互能力并支持持续的强化学习提升至关重要;(ii)精心设计的轨迹评分机制可实现更高效且有效的多轮交互;(iii)尽管更强的模拟用户(如GPT-4o)有助于训练,但开源模拟器(如Qwen3-32B)仍是成本低廉且具有良好迁移性的可行选择。综上,这些结果表明,奖励塑形的精细设计与模拟用户的选择,与模型规模同样重要,并确立了UserRL作为构建鲁棒的以用户为中心智能体模型的实用路径。所有代码与数据均已公开,供后续研究使用。
18. SD3.5-Flash: Distribution-Guided Distillation of Generative Flows
作者: Hmrishav Bandyopadhyay, Rahim Entezari, Jim Scott, Reshinth Adithyan, Yi-Zhe Song, Varun Jampani
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 8
摘要:
论文标题:SD3.5-Flash:面向生成流的分布引导蒸馏
中文摘要:
我们 提出 SD3.5-Flash,一种高效的少步数蒸馏框架,可将高质量图像生成能力带入普通消费级设备。我们的方法通过一种重新设计的分布匹配目标函数,对计算成本高昂的修正流模型(rectified flow models)进行蒸馏,该目标函数专为少步数生成场景量身定制。我们引入了两项关键技术革新:一是“时间步共享”(timestep sharing),用于降低梯度噪声;二是“分步时间步微调”(split-timestep fine-tuning),以提升提示词对齐能力。结合文本编码器重构、专用量化等全面的流水线优化措施,本系统能够在不同硬件配置下实现快速生成与内存高效部署。这使得从手机到台式机的各类设备均可平等获得先进的生成能力。通过包括大规模用户研究在内的广泛评估,我们验证了 SD3.5-Flash 在性能上持续优于现有的少步数生成方法,真正实现了先进生成式 AI 在实际应用中的普及化部署。
19. ScaleDiff: Scaling Difficult Problems for Advanced Mathematical
Reasoning
作者: Qizhi Pei, Zhuoshi Pan, Honglin Lin, Xin Gao, Yu Li, Zinan Tang, Conghui He, Rui Yan, Lijun Wu
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 8
摘要:
论文标题:ScaleDiff:面向高级数学推理的难题规模化生成方法
中文摘要:
大型推理模型(LRMs)在复杂问题求解方面展现出卓越能力,通常得益于在高难度数学问题上的训练,以激发深层次的推理能力。近期研究尝试通过提示闭源模型或大规模开源模型,从种子数据或内在数学概念中自动生成数学问题。然而,这些方法在扩展性方面仍面临挑战,主要受限于高昂的计算/API 成本、复杂的提示设计,以及所生成问题的难度水平有限。为克服上述局限,我们提出了 ScaleDiff——一种简单而高效的流水线框架,旨在实现高难度问题的大规模生成。我们利用一个自适应思维模型,仅需一次前向推理即可高效地从现有数据集中识别出困难问题,该模型能够感知题目难度,并自动在“思考”与“非思考”模式之间切换。基于筛选出的难题数据,我们训练了一个专门的难题生成器(DiffGen-8B),可大规模生成新的高难度问题,从而避免了逐例复杂提示所带来的高API成本。在 ScaleDiff-Math 数据集上微调 Qwen2.5-Math-7B-Instruct 模型后,相较于原始数据集性能提升了 11.3%,并在 AIME'24、AIME'25、HMMT-Feb'25、BRUMO'25 和 MATH500 上取得了 65.9% 的平均准确率,优于 OpenThinker3 等近期先进的大型推理模型。值得注意的是,该性能是在使用成本较低的 Qwen3-8B 模型作为教师模型的情况下实现的,表明我们的框架能够在不依赖更大、更昂贵教师模型的前提下,有效迁移高级推理能力。此外,我们观察到随着高难度问题数量的增加,模型在困难基准测试上的性能呈现出明显的提升趋势。代码地址:https://github.com/QizhiPei/ScaleDiff。
20. SceneWeaver: All-in-One 3D Scene Synthesis with an Extensible and
Self-Reflective Agent
作者: Yandan Yang, Baoxiong Jia, Shujie Zhang, Siyuan Huang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-24 | 👍 点赞数: 8
摘要:
论文标题:SceneWeaver:基于可扩展且具备自省能力的智能体的全功能3D场景合成
中文摘要:
随着具身人工智能(Embodied AI)的发展,室内场景合成变得日益重要。该领域需要的3D环境不仅在视觉上逼真,还需具备物理合理性与功能多样性。尽管近年来的方法在视觉保真度方面取得了进展,但它们通常局限于固定的场景类别,缺乏足够的物体层级细节和物理一致性,并且难以满足复杂的用户指令。本文提出SceneWeaver——一种具备自省能力的智能体框架,通过基于工具的迭代优化方法,统一了多种场景合成范式。SceneWeaver的核心是一个基于语言模型的规划器,能够从一系列可扩展的场景生成工具中进行选择,这些工具涵盖数据驱动的生成模型、基于视觉 的方法以及基于大语言模型(LLM)的技术,并在物理合理性、视觉真实感以及与用户输入的语义对齐等方面进行自我评估以指导决策。这种闭环的“推理-行动-反思”设计使智能体能够识别语义不一致问题,调用针对性工具,并在多次迭代中持续优化场景。在常见及开放词汇范围内的房间类型上开展的大量实验表明,SceneWeaver不仅在物理性、视觉质量和语义匹配等指标上优于先前方法,还能有效泛化至包含多样化指令的复杂场景,推动了通用型3D环境生成的发展。项目网站:https://scene-weaver.github.io/。
21. Quantized Visual Geometry Grounded Transformer
作者: Weilun Feng, Haotong Qin, Mingqiang Wu, Chuanguang Yang, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 7
摘要:
论文标题:量化视觉几何定位变换器
中文摘要:
以视觉几何定位变换器(Visual Geometry Grounded Transformers, VGGTs)为代表的基于学习的三维重建模型,借助大规模变换器结构取得了显著进展。然而,其高昂的计算与内存开销严重制约了在实际场景中的部署应用。训练后量化(Post-Training Quantization, PTQ)已成为压缩和加速模型的常用手段。然而,我们通过实验发现,PTQ在压缩十亿参数规模的VGGTs时面临独特挑战:数据无关的特殊标记(special tokens)导致激活分布呈现重尾特性,而三维数据的多视角特性又使得校准样本的选择过程极不稳定。本文提出了首个面向VGGTs的量化框架——QuantVGGT。该框架主要包含两项关键技术贡献:第一,提出双平滑细粒度量化(Dual-Smoothed Fine-Grained Quantization),通过引入全局前置的哈达玛旋转(Hadamard rotation)和局部后置的通道平滑(channel smoothing),有效缓解激活分布的重尾现象及通道间方差不均问题;第二,设计噪声过滤的多样性采样方法(Noise-Filtered Diverse Sampling),利用深层网络的统计信息过滤异常样本,并构建帧感知的多样化校准簇,以确保量化范围的稳定性。大量实验表明,QuantVGGT在不同基准任务和比特宽度下均达到了最先进的性能,显著优于此前最优的通用量化方法。特别地,我们的4比特QuantVGGT在真实硬件推理中实现了3.7倍的内存压缩和2.5倍的加速,同时保持了原始全精度模型98%以上的重建精度。这充分体现了QuantVGGT在资源受限场景下的巨大优势与实用价值。本项目代码已公开发布于 https://github.com/wlfeng0509/QuantVGGT。
22. BESPOKE: Benchmark for Search-Augmented Large Language Model
Personalization via Diagnostic Feedback
作者: Hyunseo Kim, Sangam Lee, Kwangwook Seo, Dongha Lee
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 6
摘要:
论文标题:BESPOKE:基于诊断反馈的检索增强型大语言模型个性化评测基准
中文摘要:
检索增强型大语言模型(LLMs)通过将信息检索融入生成过程,显著提升了信息获取任务的效果,相比传统搜索系统降低了用户的认知负担。然而,现有模型仍难以充分满足用户多样化的需求,这要求模型能够识别同一查询在不同用户之间可能体现的不同意图,并以用户偏好的形式提供信息。尽管近期如ChatGPT和Gemini等系统尝试利用用户历史记录实现个性化,但针对此类个性化能力的系统性评估仍鲜有研究。为填补这一空白,我们提出了BESPOKE——一个用于评估检索增强型大语言模型个性化的现实化评测基准。BESPOKE具有两个核心特性:一是“真实性”,即通过直接收集真实人类的对话与搜索历史构建数据;二是“可诊断性”,即为模型回复配备细粒度的偏好评分与诊断性反馈。该基准通过长期、深度参与的人工标注构建而成,标注人员贡献了自身的交互历史,撰写带有详细信息需求的查询,并对回复进行打分及提供诊断反馈。基于BESPOKE,我们开展了系统性分析,揭示了信息获取任务中有效个性化所需的关键要素,为个性化检索增强型大语言模型的细粒度评估奠定了基础。我们的代码与数据已公开发布于 https://augustinlib.github.io/BESPOKE/。
23. Interactive Recommendation Agent with Active User Commands
作者: Jiakai Tang, Yujie Luo, Xunke Xi, Fei Sun, Xueyang Feng, Sunhao Dai, Chao Yi, Dian Chen, Zhujin Gao, Yang Li, Xu Chen, Wen Chen, Jian Wu, Yuning Jiang, Bo Zheng
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 5
摘要:
论文标题:基于主动用户指令的交互式推荐代理
中文摘要:
传统的推荐系统依赖于被动的反馈机制,限制用户仅能进行点赞、点踩等简单操作。然而,这类粗粒度的反馈信号难 以捕捉用户行为背后复杂的动机与意图。相应地,现有系统也无法识别究竟是哪些具体的物品属性导致了用户的满意或不满,从而造成用户偏好建模不准确。这些根本性局限导致用户真实意图与系统理解之间长期存在鸿沟,最终削弱用户体验并影响系统的整体有效性。
为解决上述问题,我们提出“交互式推荐信息流”(Interactive Recommendation Feed, IRF),这是一种开创性的范式,能够在主流推荐信息流中支持自然语言指令的输入。与传统系统局限于用户被动的隐式行为反馈不同,IRF通过实时的自然语言指令,赋予用户对推荐策略进行主动、显式控制的能力。为支撑这一范式,我们设计了RecBot——一种双代理架构:其中解析代理(Parser Agent)将用户的自然语言表达转化为结构化的偏好表示,规划代理(Planner Agent)则动态协调自适应的工具链,实现推荐策略的即时调整。为了支持实际部署,我们采用基于仿真的知识蒸馏方法,在保持强大推理能力的同时实现高效的运行性能。通过大量离线实验及长期在线实验验证,RecBot在用户满意度和业务指标方面均展现出显著提升。
24. When Judgment Becomes Noise: How Design Failures in LLM Judge Benchmarks
Silently Undermine Validity
作者: Benjamin Feuer, Chiung-Yi Tseng, Astitwa Sarthak Lathe, Oussama Elachqar, John P Dickerson
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-24 | 👍 点赞数: 5
摘要:
论文标题:当判断变为噪声:大语言模型裁判基准中的设计缺陷如何悄然削弱有效性
中文摘要:
大语言模型(LLM)裁判型基准正被越来越多地用于评估复杂模型行为,但其设计引入了传统基于真实标签的基准所不具备的失效模式。我们认为,若缺乏明确的评估目标和可验证的结构设计,此类基准产生的排名可能看似高度可信,实则很大程度上仅为噪声。为此,我们提出两种机制来诊断这些问题。架构遵循度(schematic adherence)用于量化裁判的整体判决中有多少比例可由明确的评估架构解释,从而揭示当裁判偏离自身评分标准时所产生的无法解释的方差;心理测量有效性(psychometric validity)则综合内部一致性和区分效度信号,用以衡量每次基准测试中不可约简的不确定性。我们将这些工具应用于Arena-Hard Auto基准,发现当前主流裁判模型存在严重的评分架构不连贯和因子坍缩问题:例如,DeepSeek-R1-32B的不可解释方差超过90%,而大多数评判标准之间的因子相关性高达0.93以上。我们还发现,Arena-Hard Auto所采用的ELO风格聚合方法会进一步压缩并掩盖真实的排名不确定性。研究结果凸显了若干关键的设计缺陷,这些缺陷严重损害了基准的有效性,并提出了构建更具明确范围、注重可靠性的LLM裁判型基准的可操作原则。我们的代码已公开发布于 https://anonymous.4open.science/r/judgment-to-noise-947D/README.md
25. MOSS-ChatV: Reinforcement Learning with Process Reasoning Reward for
Video Temporal Reasoning
作者: Sicheng Tao, Jungang Li, Yibo Yan, Junyan Zhang, Yubo Gao, Hanqian Li, ShuHang Xun, Yuxuan Fan, Hong Chen, Jianxiang He, Xuming Hu
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 4
摘要:
论文标题:MOSS-ChatV:基于过程推理奖励的强化学习用于视频时序推理
中文摘要:
视频推理已成为多模态大语言模型(MLLMs)的一项关键能力,要求模型从静态感知转向对复杂场景中时间动态的连贯理解。然而,现有的MLLMs常常表现出推理过程不一致的问题,即即使最终答案正确,中间推理步骤仍可能偏离视频的实际动态,从而损害了模型的可解释性与鲁棒性。为解决这一问题,我们提出了MOSS-ChatV,一种结合基于动态时间规整(Dynamic Time Warping, DTW)的过程奖励的强化学习框架。该基于规则的奖励机制将模型的推理轨迹与时间上对齐的参考文本进行匹配,实现了无需辅助奖励模型的高效过程监督。我们进一步提出动态状态预测作为衡量视频推理能力的关键指标,并构建了MOSS-Video——一个带有标注推理轨迹的基准数据集,其中训练集用于微调MOSS-ChatV,保留的测试集则用于评估。MOSS-ChatV在MOSS-Video(测试集)上取得了87.2%的成绩,同时在MVBench和MMVU等通用视频理解基准上也实现了性能提升。该框架在Qwen2.5-VL和Phi-2等多种不同架构上均持续带来性能增益,验证了其广泛的适用性。通过GPT-4o作为评判者的评估进一步表明,MOSS-ChatV生成的推理轨迹更加一致且稳定。
26. Behind RoPE: How Does Causal Mask Encode Positional Information?
作者: Junu Kim, Xiao Liu, Zhenghao Lin, Lei Ji, Yeyun Gong, Edward Choi
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 4
摘要:
论文标题:深入探究RoPE:因果掩码如何编码位置信息?
中文摘要: 尽管诸如RoPE之类的显式位置编码是Transformer解码器中位置信息的主要来源,但因果掩码(causal mask)同样提供了位置信息。在本研究中,我们证明了即使在没有参数或输入中不存在因果依赖的情况下,因果掩码也能在注意力分数中诱导出依赖于位置的模式。我们的理论分析表明,这种被诱导出的注意力 模式倾向于偏好邻近的查询-键对,这与常见的位置编码行为相似。实证分析进一步证实,在训练好的模型中也表现出相同的行为,且学习到的参数会进一步增强这些模式。值得注意的是,我们发现因果掩码与RoPE之间的相互作用会将RoPE原本具有的相对注意力分数模式扭曲为非相对的形式。我们在现代大型语言模型中一致观察到了这一现象,这表明在考虑位置信息来源时,应将因果掩码与显式位置编码一同纳入考量。
27. CompLLM: Compression for Long Context Q&A
作者: Gabriele Berton, Jayakrishnan Unnikrishnan, Son Tran, Mubarak Shah
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-23 | 👍 点赞数: 4
摘要:
论文标题:CompLLM:面向长上下文问答的压缩方法
中文摘要:
大型语言模型(Large Language Models, LLMs)在处理长上下文时面临显著的计算挑战,原因在于自注意力机制具有平方级复杂度。尽管软性上下文压缩方法(即将输入文本映射为更小的潜在表示)已展现出一定潜力,但其在实际应用中的采纳仍受限。现有技术通常将整个上下文作为一个整体进行压缩,导致压缩过程同样具有平方复杂度,并且无法在具有重叠上下文的不同查询之间复用计算结果。本文提出 CompLLM,一种面向实际部署的软压缩技术。与整体处理上下文不同,CompLLM 将上下文划分为多个片段,并对每个片段独立进行压缩。这一简单的设计带来了三个关键特性:高效性,压缩步骤的时间复杂度随上下文长度线性增长;可扩展性,使得在短序列(例如 1k token)上训练的模型能够推广到长达 100k token 的上下文;以及可复用性,允许将压缩后的片段缓存并在不同查询间重复使用。实验结果表明,在实现 2 倍压缩率的情况下,CompLLM 在长上下文场景中可将首字生成时间(Time To First Token, TTFT)加速最高达 4 倍,并将键值缓存(KV cache)大小减少 50%。此外,CompLLM 的性能与使用未压缩上下文的情况相当,甚至在极长序列上表现更优,验证了其有效性与实用价值。
28. StyleBench: Evaluating thinking styles in Large Language Models
作者: Junyu Guo, Shangding Gu, Ming Jin, Costas Spanos, Javad Lavaei
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 3
摘要:
论文标题:StyleBench:大语言模型思维风格的评估
中文摘要:
大语言模型(LLM)的有效性在很大程度上受到其提示中所采用的推理策略,即思维风格的影响。然而,这些推理风格、模型架构与任务类型之间的相互作用仍缺乏深入理解。为此,我们提出了 StyleBench——一个用于在多种任务和模型上系统评估推理风格的综合性基准。我们选取了五种具有代表性的推理风格,包括思维链(Chain of Thought, CoT)、思维树(Tree of Thought, ToT)、思维算法(Algorithm of Thought, AoT)、思维草图(Sketch of Thought, SoT)和草稿链(Chain-of-Draft, CoD),并在五个推理任务上,使用来自主要模型家族(LLaMA、Qwen、Mistral、Gemma、GPT-OSS、Phi 和 DeepSeek)的15个开源模型(参数量从2.7亿到1200亿不等)进行了评估。我们的大规模分析表明,并不存在一种在所有情况下都最优的推理风格。我们发现,推理策略的有效性高度依赖于模型规模和任务类型:基于搜索的推理方法(如 AoT、ToT)在开放性问题中表现优异,但需要大规模模型支持;而简洁型推理风格(如 SoT、CoD)在定义明确的任务上则能实现显著的效率提升。此外,我们识别出若干关键行为模式:较小规模的模型常常无法遵循输出指令,倾向于直接猜测;而推理的鲁棒性则随模型规模增大而增强。本研究为在不同约束条件下选择最优推理策略提供了重要指导。我们已将该基准开源,代码地址:https://github.com/JamesJunyuGuo/Style_Bench。