跳到主要内容

每日论文 - 2025年08月25日

论文总数: 18

1. Beyond Pass@1: Self-Play with Variational Problem Synthesis Sustains

RLVR

作者: Xiao Liang, Zhongzhi Li, Yeyun Gong, Yelong Shen, Ying Nian Wu, Zhijiang Guo, Weizhu Chen

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-19 | 👍 点赞数: 114

摘要:

强化学习与可验证奖励(RLVR)最近成为大型语言模型(LLMs)后训练的关键范式,尤其适用于复杂推理任务。然而,已有研究表明,基础的RLVR训练在提升Pass@1性能的同时会降低策略熵,从而限制生成多样性并影响Pass@k性能,而后者通常代表LLM推理能力的上限。本文从训练问题的角度出发,系统分析了策略生成多样性的表现,并发现增强和更新训练问题有助于缓解训练过程中的熵坍缩现象。基于上述观察,我们提出了一种面向RLVR训练的在线Self-play with Variational problem Synthesis(SvS)策略。该方法利用策略生成的正确解合成变体问题,同时确保其参考答案与原问题保持一致。这一自我提升策略有效维持了训练过程中的策略熵,相比标准RLVR显著提升了Pass@k性能,在竞赛级别的AIME24和AIME25基准测试中Pass@32性能分别实现了18.3%和22.8%的绝对提升。我们在12个推理基准测试中对从3B到32B不同规模模型进行的实验一致表明了SvS的普适性和鲁棒性。


2. AgentFly: Fine-tuning LLM Agents without Fine-tuning LLMs

作者: Huichi Zhou, Yihang Chen, Siyuan Guo, Xue Yan, Kin Hei Lee, Zihan Wang, Ka Yiu Lee, Guchun Zhang, Kun Shao, Linyi Yang, Jun Wang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-22 | 👍 点赞数: 107

摘要:

本文提出了一种新的自适应大语言模型(Large Language Model, LLM)代理学习范式,无需对底层LLM进行微调。现有方法通常要么过于僵化,依赖静态、手工设计的反思工作流,要么计算成本高昂,需要对LLM模型参数进行梯度更新。相比之下,我们的方法通过基于记忆的在线强化学习实现低成本的持续适应。我们将此建模为一种增强记忆的马尔可夫决策过程(Memory-augmented Markov Decision Process, M-MDP),并配备一个神经案例选择策略以指导动作决策。过去的经验存储在一种情节记忆中,可以是可微分的,也可以是非参数的。该策略通过记忆重写机制根据环境反馈不断更新,而策略改进则通过高效的记忆读取(检索)实现。我们将代理模型实例化于深度研究场景中,命名为AgentFly,其在GAIA验证集上达到第一名的成绩(87.88% Pass@3),测试集上达到79.40%。在DeepResearcher数据集上,其F1得分为66.6%,PM得分为80.4%,超越了当前最先进的基于训练的方法,而基于案例的记忆在分布外任务上额外提升了4.7%到9.6%的绝对分数。我们的方法为开发能够在没有梯度更新的情况下进行持续、实时学习的通用LLM代理提供了一条可扩展且高效的路径,推动机器学习向开放式技能获取和深度研究场景迈进。 代码地址为 https://github.com/Agent-on-the-Fly/AgentFly


3. ODYSSEY: Open-World Quadrupeds Exploration and Manipulation for

Long-Horizon Tasks

作者: Kaijun Wang, Liqin Lu, Mingyu Liu, Jianuo Jiang, Zeju Li, Bolin Zhang, Wancai Zheng, Xinyi Yu, Hao Chen, Chunhua Shen

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-11 | 👍 点赞数: 43

摘要:

语言引导的长视野移动操作一直是具身语义推理、可泛化操作和自适应运动领域的重大挑战。目前存在三个基本限制:首先,尽管大语言模型通过语义先验提升了空间推理和任务规划能力,但现有实现仍局限于桌面场景,未能解决移动平台感知受限和执行器活动范围有限的问题。其次,当前的操作策略在面对开放世界环境中遇到的多样化物体配置时表现出泛化能力不足。第三,在实际部署中至关重要的问题是,在非结构化环境中同时保持平台高机动性和末端执行器精确控制的需求仍未得到充分研究。

本研究提出了ODYSSEY,一个面向配备操作臂的敏捷四足机器人的统一移动操作框架,该框架无缝集成了高层任务规划与底层全身控制。为解决语言条件任务中的自我中心感知挑战,我们引入了一个基于视觉-语言模型的分层规划器,实现了长视野指令分解与精确动作执行。在控制层面,我们提出的全新全身控制策略在复杂地形中实现了鲁棒协调。我们进一步提出了首个面向长视野移动操作的基准测试,评估了多种室内外场景。通过成功的从仿真到现实的迁移,我们验证了系统在真实世界部署中的泛化能力和鲁棒性,突出了足式操作臂在非结构化环境中的实用性。我们的工作推进了能够执行复杂、动态任务的通用机器人助手的可行性。 项目页面:https://kaijwang.github.io/odyssey.github.io/


4. EgoTwin: Dreaming Body and View in First Person

作者: Jingqiao Xiu, Fangzhou Hong, Yicong Li, Mengze Li, Wentao Wang, Sirui Han, Liang Pan, Ziwei Liu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-18 | 👍 点赞数: 17

摘要:

EgoTwin: 以第一人称视角模拟身体与视野

尽管外视角(exocentric)视频合成已取得显著进展,以自我为中心的(egocentric)视频生成仍鲜有探索,该任务需要对人体运动所引起的摄像机运动模式以及第一人称视角内容进行建模。为填补这一研究空白,我们提出了一项新的联合以自我为中心视频与人体运动生成的任务,其面临两个关键挑战:1)视角对齐:生成视频中的摄像机轨迹必须与从人体运动中提取的头部轨迹精确对齐;2)因果交互:合成的人体运动必须与相邻视频帧间的视觉动态变化保持因果一致性。为应对上述挑战,我们提出了EgoTwin,一个基于扩散变换器(diffusion transformer)架构的视频与运动联合生成框架。具体而言,EgoTwin引入了一种以头部为中心的运动表示方法,将人体运动锚定于头部关节,并结合一种受控制论启发的交互机制,在注意力操作中显式捕捉视频与运动之间的因果互动。为进行全面评估,我们构建了一个大规模的真实场景数据集,包含同步的文本-视频-运动三元组,并设计了新的指标以评估视频与运动之间的一致性。大量实验验证了EgoTwin框架的有效性。


5. AetherCode: Evaluating LLMs' Ability to Win In Premier Programming

Competitions

作者: Zihan Wang, Jiaze Chen, Zhicheng Liu, Markus Mak, Yidi Du, Geonsik Moon, Luoqi Xu, Aaron Tua, Kunshuo Peng, Jiayi Lu, Mingfei Xia, Boqian Zou, Chenyang Ran, Guang Tian, Shoutai Zhu, Yeheng Duan, Zhenghui Kang, Zhenxing Lin, Shangshu Li, Qiang Luo, Qingshen Long, Zhiyong Chen, Yihan Xiao, Yurong Wu, Daoguang Zan, Yuyi Fu, Mingxuan Wang, Ming Ding

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-22 | 👍 点赞数: 14

摘要:

AetherCode:评估大语言模型在顶级编程竞赛中的竞争力

近年来,竞赛编程已成为评估大语言模型(LLMs)推理与编程能力的重要基准。尽管现有基准测试已取得显著进展,但我们认为当前的评估高估了模型的实际水平,掩盖了LLMs与顶尖人类程序员之间的显著差距。这一差距主要源于两个关键缺陷:基准问题的难度和覆盖范围不足,以及低质量测试用例导致的评估偏差。为解决这些问题,我们提出了AetherCode,一个全新的基准测试,其问题来源于国际信息学奥林匹克竞赛(IOI)和国际大学生程序设计竞赛(ICPC)等顶级编程赛事,具有更广的覆盖范围和更高的难度。AetherCode进一步引入了由专家验证的全面测试套件,该套件通过自动化生成与人工筛选相结合的方式构建,确保评估的严谨性与可靠性。通过结合高难度问题设计与稳健的评估方法,AetherCode为更真实地衡量LLMs的能力提供了标准,并为代码推理领域的未来研究设立了新的标杆。


6. CRISP: Persistent Concept Unlearning via Sparse Autoencoders

作者: Tomer Ashuach, Dana Arad, Aaron Mueller, Martin Tutek, Yonatan Belinkov

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-19 | 👍 点赞数: 14

摘要:

摘要:随着大语言模型(LLMs)在实际应用中的广泛部署,如何在保留模型效用的同时选择性地移除不需要的知识变得至关重要。近期研究探索了使用稀疏自编码器(Sparse Autoencoders, SAEs)对单义特征进行精确干预。然而,大多数基于SAE的方法仅在推理阶段进行干预,无法对模型参数产生持久性改变。这种干预方式可能被拥有参数访问权限的恶意行为者绕过或逆转。为此,我们提出了CRISP,一种基于SAE的参数高效、持久性概念遗忘方法。CRISP能够自动识别多个层中的显著SAE特征,并抑制其激活。我们在两个LLM上的实验表明,该方法在WMDP基准中的安全性关键遗忘任务上优于先前方法,成功移除了有害知识,同时保留了通用能力和领域内性能。特征级分析显示,CRISP在目标概念与良性概念之间实现了语义上一致的分离,从而实现了对目标特征的精确抑制。


7. AgentScope 1.0: A Developer-Centric Framework for Building Agentic

Applications

作者: Dawei Gao, Zitao Li, Yuexiang Xie, Weirui Kuang, Liuyi Yao, Bingchen Qian, Zhijian Ma, Yue Cui, Haohao Luo, Shen Li, Lu Yi, Yi Yu, Shiqi He, Zhiling Luo, Wenmeng Zhou, Zhicheng Zhang, Xuguang He, Ziqian Chen, Weikai Liao, Farruh Isakulovich Kushnazarov, Yaliang Li, Bolin Ding, Jingren Zhou

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-22 | 👍 点赞数: 13

摘要:

摘要:
随着大语言模型(LLMs)的快速发展,智能体(agents)能够结合内在知识与动态工具使用,显著增强了其处理实际任务的能力。为顺应这一发展趋势,AgentScope 在新版本(1.0)中引入了多项重大改进,旨在全面支持基于工具的灵活且高效的智能体-环境交互,从而更好地构建智能体应用(agentic applications)。具体而言,我们抽象了构建智能体应用所需的核心组件,并提供了统一的接口和可扩展模块,使开发者能够轻松集成最新进展,例如新模型和MCPs(多能力插件)。此外,我们基于ReAct范式构建智能体行为模型,并通过系统化的异步设计提供先进的智能体层级基础设施,从而丰富了人-智能体与智能体-智能体之间的交互模式,同时提升了执行效率。在此基础上,我们还集成了多个面向特定实际场景的内置智能体。AgentScope 还提供了强大的工程支持以提升开发体验。我们提供了一个可扩展的评估模块及可视化界面(visual studio interface),使长轨迹智能体应用的开发更易于管理与追踪。此外,AgentScope 还提供运行时沙箱(runtime sandbox),以确保智能体的安全执行,并支持在生产环境中的快速部署。通过这些改进,AgentScope 为构建可扩展、自适应且高效的智能体应用提供了实用的基础。


8. Selective Contrastive Learning for Weakly Supervised Affordance

Grounding

作者: WonJun Moon, Hyun Seok Seong, Jae-Pil Heo

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-11 | 👍 点赞数: 12

摘要:

促进实体与物体的交互需要准确识别能够执行特定动作的部分。弱监督可操作性定位(WSAG)旨在模仿人类从第三人称演示中学习的方式,人类可以直观地理解功能性部分,而无需像素级标注。为此,通常使用跨不同视角图像的共享分类器以及结合部分发现过程的蒸馏策略来学习定位。然而,由于可操作性相关的部分并不总是容易区分,模型主要依赖分类,往往关注与可操作性无关的常见类别特定模式。为解决这一限制,我们引入选择性的原型对比和像素对比目标,超越孤立的部分级学习,自适应地在部分和物体级别学习与可操作性相关的线索,这取决于可用信息的粒度。首先,我们利用CLIP在自我中心(物体聚焦)和外部中心(第三人称示例)图像中找到与动作相关的物体。然后,通过交叉参考互补视角下发现的物体,我们挖掘每个视角下精确的部分级可操作性线索。通过持续学习区分可操作性相关区域与可操作性无关的背景上下文,我们的方法有效地将激活从无关区域转移到有意义的可操作性线索上。实验结果验证了我们方法的有效性。 代码可在https://github.com/hynnsk/SelectiveCL获取。


9. End-to-End Agentic RAG System Training for Traceable Diagnostic

Reasoning

作者: Qiaoyu Zheng, Yuze Sun, Chaoyi Wu, Weike Zhao, Pengcheng Qiu, Yongguo Yu, Kun Sun, Yanfeng Wang, Ya Zhang, Weidi Xie

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-21 | 👍 点赞数: 9

摘要:

准确的医学诊断因大语言模型的知识差距和幻觉问题而受到阻碍。虽然检索和工具增强方法有所帮助,但其效果受限于对外部知识的利用不足以及反馈与推理过程的可追溯性较差。为了解决这些挑战,我们提出了Deep-DxSearch,这是一种基于强化学习(RL)端到端训练的代理RAG系统,能够实现可追溯的增强推理用于医学诊断。在Deep-DxSearch中,我们首先构建了一个大规模的医学检索语料库,包括患者记录和可靠的医学知识来源,以支持多种诊断场景下的检索感知推理。更重要的是,我们将大语言模型(LLM)作为核心代理,将检索语料库作为其环境,通过在格式、检索、推理结构和诊断准确性方面设计定制化奖励,从而利用强化学习从大规模数据中演化代理RAG策略。

实验表明,我们的端到端代理RL训练框架在多个数据中心始终优于提示工程和无需训练的RAG方法。训练后,Deep-DxSearch在诊断准确性方面取得了显著提升,在常见病和罕见病的诊断任务中,无论是分布内还是分布外设置下,均超越了如GPT-4o、DeepSeek-R1等强诊断基线模型以及其他医学专用框架。此外,对奖励设计和检索语料库组件的消融实验验证了它们的关键作用,进一步突出了我们的方法相较于传统实现的独特性和有效性。最后,案例研究和可解释性分析展示了Deep-DxSearch诊断策略的改进,提供了对其性能提升的深入理解,并支持临床医生提供更可靠和精确的初步诊断。 见https://github.com/MAGIC-AI4Med/Deep-DxSearch


10. Do What? Teaching Vision-Language-Action Models to Reject the Impossible

作者: Wen-Han Hsieh, Elvis Hsieh, Dantong Niu, Trevor Darrell, Roei Herzig, David M. Chan

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-22 | 👍 点赞数: 8

摘要:

最近,视觉-语言-动作(Vision-Language-Action, VLA)模型在多种机器人任务中表现出色。这些模型依赖于多模态输入,其中语言指令不仅在动作预测方面发挥关键作用,还在稳健地解释用户意图方面具有重要意义,即使某些请求无法实现。在本研究中,我们探讨了VLA模型如何识别、解释和响应错误前提指令:即那些引用环境中不存在的对象或条件的自然语言命令。我们提出了一个统一的框架——指令验证与执行(Instruct-Verify-and-Act, IVA),该框架能够(i)检测由于错误前提而无法执行的指令,(ii)通过语言进行澄清或修正,以及(iii)基于感知和动作对合理的替代方案进行推理。为此,我们构建了一个包含结构化语言提示的大规模指令微调实验环境,并训练了一个能够处理正确和错误请求的VLA模型。我们的方法利用了一个上下文增强型半合成数据集,该数据集中包含成对的正确指令和错误前提指令,从而实现了稳健的错误前提检测和自然语言修正。实验结果表明,IVA在错误前提检测准确率方面比基线方法提高了97.56%,同时在错误前提场景中成功响应率提升了50.78%。


11. TPLA: Tensor Parallel Latent Attention for Efficient Disaggregated

Prefill & Decode Inference

作者: Xiaojuan Tang, Fanxu Meng, Pingzhi Tang, Yuxuan Wang, Di Yin, Xing Sun, Muhan Zhang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-21 | 👍 点赞数: 7

摘要:

TPLA:用于高效解聚预填充与解码推理的张量并行潜在注意力

DeepSeek-V2中引入的多头潜在注意力(Multi-Head Latent Attention, MLA)将键值状态压缩为低秩潜在向量,并仅缓存该向量以减少内存占用。然而在张量并行(tensor parallelism, TP)设置中,注意力头的计算分布在多个设备上,每个设备必须加载完整的缓存,从而削弱了MLA相较于分组查询注意力(Grouped Query Attention, GQA)的优势。我们提出张量并行潜在注意力(Tensor-Parallel Latent Attention, TPLA):一种将潜在表示和每个头的输入维度在设备间划分、在每个分片上独立执行注意力计算,并通过all-reduce操作合并结果的方案。TPLA在保留压缩键值缓存优势的同时,实现了张量并行的效率。与分组潜在注意力(Grouped Latent Attention, GLA)不同,TPLA中的每个头仍然利用完整的潜在表示,从而保持更强的表征能力。TPLA可直接兼容使用MLA预训练的模型:其支持MLA风格的预填充,并可在无需重新训练的情况下实现高效的张量并行解码。在TP切分前应用简单的正交变换——例如Hadamard变换或主成分分析(PCA)——可进一步缓解分片间干扰,使精度损失最小化。通过减少DeepSeek-V3和Kimi-K2的单设备键值缓存,我们在32K token的上下文长度下分别实现了1.79倍和1.93倍的加速,同时在常识推理和LongBench基准测试中保持原有性能。TPLA可通过FlashAttention-3实现,从而支持实际的端到端加速。


12. Distilled-3DGS:Distilled 3D Gaussian Splatting

作者: Lintao Xiang, Xinkai Chen, Jianhuang Lai, Guangcong Wang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-19 | 👍 点赞数: 7

摘要:

3D高斯点绘(3D Gaussian Splatting, 3DGS)在新视角合成(novel view synthesis, NVS)任务中表现出卓越的效果。然而,它存在一个显著缺陷:实现高保真渲染通常需要大量的3D高斯分布,导致较大的内存消耗和存储需求。为了解决这一问题,我们提出了首个面向3DGS的知识蒸馏框架,该框架包含多种教师模型,如基础3DGS模型、噪声增强变体以及引入Dropout正则化的版本。这些教师模型的输出被综合用于指导轻量级学生模型的优化。为了有效蒸馏隐藏的几何结构,我们设计了一种结构相似性损失,以增强学生模型与教师模型在空间几何分布上的一致性。通过对多种数据集进行全面的定量与定性评估,所提出的Distilled-3DGS框架在不引入复杂模块的情况下,实现了优于现有方法的渲染质量与存储效率。 项目主页:https://distilled3dgs.github.io

代码地址:https://github.com/lt-xiang/Distilled-3DGS


13. Sketch3DVE: Sketch-based 3D-Aware Scene Video Editing

作者: Feng-Lin Liu, Shi-Yang Li, Yan-Pei Cao, Hongbo Fu, Lin Gao

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-19 | 👍 点赞数: 6

摘要:

摘要:近期的视频编辑方法在风格迁移或外观修改方面取得了令人满意的效果。然而,在处理视频中三维场景的结构内容编辑时仍存在挑战,尤其是在存在显著视角变化的情况下,例如大角度相机旋转或缩放。主要挑战包括生成与原始视频保持一致的新视角内容、保留未编辑区域,以及将稀疏的二维输入转化为逼真的三维视频输出。为了解决这些问题,我们提出了Sketch3DVE,这是一种基于草图的三维感知视频编辑方法,能够在存在显著视角变化的情况下实现对视频的细节级局部编辑。为了解决稀疏输入带来的挑战,我们首先利用图像编辑方法生成第一帧的编辑结果,并将其传播到视频的其余帧中。我们采用草图绘制作为交互工具以实现对几何形状的精确控制,同时也支持其他基于掩码的图像编辑方法。为了处理视角变化,我们对视频中的三维信息进行了详细分析与操作。具体而言,我们采用一种密集立体方法估计输入视频的点云及其相机参数。随后提出了一种点云编辑方法,使用深度图表示新编辑组件的三维几何结构,并将其有效地与原始三维场景对齐。为了在保留未编辑区域特征的同时无缝融合新编辑内容与原始视频,我们引入了一种三维感知的掩码传播策略,并采用视频扩散模型生成逼真的编辑视频。大量实验表明,Sketch3DVE在视频编辑任务中具有显著优势。项目主页与代码:http://http://geometrylearning.com/Sketch3DVE/


14. Learnable SMPLify: A Neural Solution for Optimization-Free Human Pose

Inverse Kinematics

作者: Yuchen Yang, Linfeng Dong, Wei Wang, Zhihang Zhong, Xiao Sun

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-19 | 👍 点赞数: 2

摘要:

在3D人体姿态与形状估计领域,SMPLify仍然是一个稳健的基线方法,它通过迭代优化求解逆运动学(IK)问题。然而,其高昂的计算成本限制了其实用性。近年来多个领域的研究进展表明,使用数据驱动的神经网络替代迭代优化方法可以在不牺牲精度的前提下显著提升运行速度。受此趋势启发,我们提出了Learnable SMPLify,这是一种神经网络框架,用单次回归模型替代了SMPLify中的迭代拟合过程。我们框架的设计聚焦于神经IK中的两个核心挑战:数据构建与泛化能力。为了实现有效的训练,我们提出了一种时间采样策略,从连续帧中构建初始化-目标对。为了提升在多样动作和未见过的姿态上的泛化能力,我们提出了一种以人体为中心的归一化方案,并采用残差学习来缩小解空间。Learnable SMPLify既支持序列推理,也可作为插件进行后处理以优化现有的基于图像的估计器。大量实验表明,我们的方法成为一种实用且简洁的基线方法:相比SMPLify,其运行速度提升了近200倍,能够很好地泛化到未见过的3DPW和RICH数据集,并且在作为插件工具应用于LucidAction时表现出模型无关的特性。 代码地址:https://github.com/Charrrrrlie/Learnable-SMPLify


15. RotaTouille: Rotation Equivariant Deep Learning for Contours

作者: Odin Hoff Gardaa, Nello Blaser

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-22 | 👍 点赞数: 1

摘要:

轮廓或闭合平面曲线在许多领域中都很常见。例如,它们在计算机视觉中作为物体边界出现,在气象学中作为等值线出现,以及在旋转机械的轨道中出现。在许多从轮廓数据中学习的情况下,输入的平面旋转会导致输出相应地旋转。因此,深度学习模型应具有旋转等变性。此外,轮廓通常表示为有序的边界点序列,其中起点的选择是任意的。因此,深度学习方法在循环移位下也应具有等变性。我们提出了RotaTouille,这是一种从轮廓数据中学习的深度学习框架,通过复数值循环卷积实现旋转和循环移位等变性。我们进一步引入并刻画了等变非线性层、粗化层和全局池化层,以获得适用于下游任务的不变表示。最后,我们通过形状分类、重建和轮廓回归的实验展示了RotaTouille的有效性。


16. InMind: Evaluating LLMs in Capturing and Applying Individual Human

Reasoning Styles

作者: Zizhen Li, Chuanhao Li, Yibin Wang, Qi Chen, Diping Song, Yukang Feng, Jianwen Sun, Jiaxin Ai, Fanrui Zhang, Mingzhu Sun, Kaipeng Zhang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-22 | 👍 点赞数: 1

摘要:

摘要:
大型语言模型(LLMs)在以人类为中心的推理任务中表现出色。尽管以往的评估已探讨了LLMs是否能够推断意图或检测欺骗,但它们往往忽略了影响人们在社会情境中解释和行动方式的个体化推理风格。社会推理游戏(Social Deduction Games, SDGs)为评估个体化推理风格提供了天然的测试平台,在相同条件下,不同玩家可能采用多样但情境上合理的推理策略。为此,我们提出了InMind,这是一种基于认知科学的评估框架,旨在检验LLMs是否能够捕捉并应用个性化的推理风格于SDGs中。InMind通过在观察者(Observer)和参与者(Participant)两种模式下收集的回合级策略轨迹和游戏后反思数据,增强了结构化的游戏数据。该框架支持四个基于认知动机设计的任务,共同评估静态一致性与动态适应性。作为案例研究,我们将InMind应用于Avalon游戏,评估了11种最先进的LLMs。结果显示,通用型LLMs即使如GPT-4o也常依赖词汇线索,难以将反思锚定在时间序列的游戏过程中,也无法适应不断变化的策略。相比之下,增强推理能力的LLMs(如DeepSeek-R1)展现出初步的风格敏感推理迹象。这些发现揭示了当前LLMs在个体化、适应性推理方面的主要局限,并表明InMind是迈向认知对齐的人机交互的重要一步。


17. CARFT: Boosting LLM Reasoning via Contrastive Learning with Annotated

Chain-of-Thought-based Reinforced Fine-Tuning

作者: Wenqiao Zhu, Ji Liu, Rongjuncheng Zhang, Haipang Wu, Yulun Zhang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-21 | 👍 点赞数: 1

摘要:

摘要:推理能力在大语言模型(LLMs)的广泛应用中起着至关重要的作用。为了提升LLMs的推理性能,已有多种基于强化学习(RL)的微调方法被提出,以解决仅通过监督微调(SFT)训练的LLMs在泛化能力方面的局限性。尽管这些方法有效,但它们仍存在两个主要限制,阻碍了LLMs的发展。首先,传统的基于RL的方法忽略了标注的思维链(CoT)并采用不稳定的推理路径采样策略,通常会导致模型崩溃、训练过程不稳定以及次优性能。其次,现有的SFT方法通常过度强调标注的CoT,可能导致因潜在CoT利用不足而引发性能下降。本文提出了一种基于标注CoT的对比学习与强化微调相结合的方法,即CARFT,以提升LLMs的推理性能并克服上述限制。具体而言,我们提出为每个CoT学习一个表示,并基于该表示设计新颖的对比信号以指导微调过程。我们的方法不仅充分利用了可用的标注CoT,还通过引入额外的无监督学习信号稳定了微调过程。我们进行了全面的实验和深入分析,使用三种基线方法、两个基础模型和两个数据集,证明了CARFT在鲁棒性、性能(最高提升10.15%)和效率(最高提升30.62%)方面具有显著优势。 代码可在https://github.com/WNQzhu/CARFT获取。


18. Jailbreaking Commercial Black-Box LLMs with Explicitly Harmful Prompts

作者: Chiyu Zhang, Lu Zhou, Xiaogang Xu, Jiafei Wu, Liming Fang, Zhe Liu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-14 | 👍 点赞数: 1

摘要:

摘要:当提示(prompt)不明显有害或未能诱导出有害输出时,评估越狱攻击(jailbreak attack)具有挑战性。遗憾的是,许多现有的红队测试(red-teaming)数据集中包含此类不合适的提示。为了准确评估攻击效果,需要对这些数据集进行恶意性评估和清理。然而,现有的恶意内容检测方法要么依赖人工标注,耗时费力,要么依赖大语言模型(LLMs),但其在不同类型有害内容上的检测准确性不稳定。为了在准确性和效率之间取得平衡,我们提出了一种混合评估框架MDH(基于LLM与人工辅助的恶意内容检测,Malicious content Detection based on LLMs with Human assistance),该框架结合了基于LLM的标注与少量人工监督,并将其应用于数据集清洗及越狱响应的检测。此外,我们发现精心设计的开发者消息(developer message)可以显著提升越狱攻击的成功率,由此提出了两种新的攻击策略:D-Attack,利用上下文模拟(context simulation);DH-CoT,引入劫持的思维链(hijacked chains of thought)。相关代码、数据集、判断结果及检测结果将发布于 GitHub仓库:https://github.com/AlienZhang1996/DH-CoT