每日论文 - 2025年09月17日
论文总数: 21
1. WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for
Open-Ended Deep Research
作者: Zijian Li, Xin Guan, Bo Zhang, Shen Huang, Houquan Zhou, Shaopeng Lai, Ming Yan, Yong Jiang, Pengjun Xie, Fei Huang, Jun Zhang, Jingren Zhou
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-16 | 👍 点赞数: 94
摘要:
论文标题:WebWeaver:通过动态大纲整合网络规模证据以支持开放式深度研究
中文摘要:
本文研究开放式深度研究(OEDR)这一复杂挑战,即AI代理需将海量的网络级信息综合成具有洞察力的研究报告。现有方法存在双重局限:一是静态的研究流程,将规划与证据获取过程割裂;二是单次生成范式,容易出现长上下文失效问题,如“中间信息丢失”和幻觉现象。为应对这些挑战,我们提出了WebWeaver——一种新颖的双智能体框架,模拟人类研究过程。其中,规划智能体(planner)采用动态循环机制,迭代地将证据获取与大纲优化交织进行,逐步生成一个全面、基于来源支撑的大纲,并链接至一个证据记忆库。写作智能体(writer)则执行分层检索与撰写流程,逐节生成报告内容。通过仅从记忆库中针对性检索每部分所需的关键证据,有效缓解了长上下文带来的问题。我们的框架在多个主流OEDR基准测试上取得了新的最先进性能,包括DeepResearch Bench、DeepConsult和DeepResearchGym。实验结果验证了我们以人类为中心、迭代式研究方法的有效性,表明自适应规划与聚焦式综合对于生成高质量、可靠且结构良好的研究报告至关重要。
2. Scaling Agents via Continual Pre-training
作者: Liangcai Su, Zhen Zhang, Guangyu Li, Zhuo Chen, Chenxi Wang, Maojia Song, Xinyu Wang, Kuan Li, Jialong Wu, Xuanzhong Chen, Zile Qiao, Zhongwang Zhang, Huifeng Yin, Shihao Cai, Runnan Fang, Zhengwei Tao, Wenbiao Yin, Chenxiong Qian, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-16 | 👍 点赞数: 92
摘要:
论文标题:通过持续预训练扩展智能代理
中文摘要:
大型语言模型(LLMs)已逐步演变为具备自主使用工具和多步推理能力的智能代理系统,能够解决复杂问题。然而,基于通用基础模型的后训练方法在代理任务上表现始终欠佳,尤其在开源实现中更为明显。我们指出其根本原因在于:缺乏强大的代理型基础模型,导致后训练阶段的模型必须同时学习多种代理行为并将其与专家示范对齐,从而引发基本的优化冲突。为此,我们首次提出将“代理型持续预训练”(Agentic Continual Pre-training, Agentic CPT)引入深度研究代理的训练流程中,以构建强大的代理型基础模型。基于该方法,我们开发了一款名为 AgentFounder 的深度研究代理模型。我们在10个基准测试上评估了 AgentFounder-30B,取得了当前最优的性能,同时保持了出色的工具使用能力,其中在 BrowseComp-en 上达到 39.9%,在 BrowseComp-zh 上达到 43.3%,在 HLE 任务上的 Pass@1 得分为 31.5% 。
3. WebSailor-V2: Bridging the Chasm to Proprietary Agents via Synthetic
Data and Scalable Reinforcement Learning
作者: Kuan Li, Zhongwang Zhang, Huifeng Yin, Rui Ye, Yida Zhao, Liwen Zhang, Litu Ou, Dingchu Zhang, Xixi Wu, Jialong Wu, Xinyu Wang, Zile Qiao, Zhen Zhang, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-16 | 👍 点赞数: 72
摘要:
论文标题:WebSailor-V2:通过合成数据与可扩展强化学习弥合与专有智能体之间的鸿沟
中文摘要:
突破人类认知局限是大语言模型(LLM)训练中的一个关键前沿。诸如DeepResearch等专有的智能体系统已在极为复杂的信息获取基准任务(如BrowseComp)上展现出超越人类的能力,这一成就此前尚无法实现。我们认为,其成功的关键在于一种在开源模型中尚未具备的复杂推理模式:即在面对海量信息空间时,能够系统性地降低极端不确定性的能力。基于这一洞察,我们提出了WebSailor——一种完整的后训练方法论,旨在赋予模型这一关键能力。我们的方法包括通过结构化采样与信息模糊化生成新颖的高不确定性任务、RFT冷启动,以及 一种高效的智能体强化学习算法——复制采样策略优化(Duplicating Sampling Policy Optimization, DUPO)。通过这一集成化流程,WebSailor在复杂信息检索任务中显著优于所有现有的开源智能体,性能上已媲美专有智能体,有效缩小了能力差距。
4. Towards General Agentic Intelligence via Environment Scaling
作者: Runnan Fang, Shihao Cai, Baixuan Li, Jialong Wu, Guangyu Li, Wenbiao Yin, Xinyu Wang, Xiaobin Wang, Liangcai Su, Zhen Zhang, Shibin Wu, Zhengwei Tao, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-16 | 👍 点赞数: 65
摘要:
论文标题:通过环境扩展实现通用智能体智能
中文摘要:
先进的智能体智能(agentic intelligence)是将大语言模型应用于实际现实场景的前提条件。多样化的现实世界API要求精确且鲁棒的函数调用能力,这需要智能体通过在多样化环境中的交互来发展此类能力。函数调用能力的广度与智能体所训练环境的多样性密切相关。在本研究中,我们通过扩展环境规模来推动通用智能体智能的发展。这一思路引出了两个核心挑战:(i)如何以系统化的方式扩展环境规模; (ii)如何从智能体与这些环境交互所产生的经验中有效训练其智能体能力。为应对这些问题,我们设计了一个可扩展的框架,能够自动构建异构的、完全模拟的环境,从而系统性地拓展函数调用场景的覆盖范围。此外,我们采用了一种两阶段的智能体微调策略:首先赋予智能体基础的智能体能力,然后针对特定领域情境进行专业化优化。在多个智能体基准测试(包括tau-bench、tau2-Bench和ACEBench)上的大量实验表明,我们训练的模型AgentScaler显著提升了模型的函数调用能力。
5. WebResearcher: Unleashing unbounded reasoning capability in Long-Horizon
Agents
作者: Zile Qiao, Guoxin Chen, Xuanzhong Chen, Donglei Yu, Wenbiao Yin, Xinyu Wang, Zhen Zhang, Baixuan Li, Huifeng Yin, Kuan Li, Rui Min, Minpeng Liao, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-16 | 👍 点赞数: 62
摘要:
论文标题:WebResearcher:释放长视野智能体的无限推理能力
中文摘要:
近年来,深度研究系统的发展已展现出人工智能代理从外部来源自主发现并综合知识的潜力。本文 提出了WebResearcher,一种构建此类智能体的新颖框架,包含两个核心组件:(1)WebResearcher,一种迭代式的深度研究范式,将深度研究重新建模为马尔可夫决策过程(Markov Decision Process),其中智能体周期性地将研究成果整合到不断演进的报告中,同时保持专注的工作空间,从而克服现有单上下文方法所面临上下文饱和和噪声污染的问题;(2)WebFrontier,一种可扩展的数据合成引擎,通过工具增强的复杂度递增机制生成高质量的训练数据,系统性地构建研究任务,弥合了被动知识回忆与主动知识建构之间的鸿沟。值得注意的是,我们发现该范式生成的训练数据即使对于传统的单上下文方法,也能显著提升其工具使用能力。此外,该范式天然支持通过并行思维实现扩展,允许多智能体并发探索,从而得出更全面的结论。在六个具有挑战性的基准测试上的大量实验表明,WebResearcher实现了最先进的性能,甚至超越了当前领先的专有系统。
6. ReSum: Unlocking Long-Horizon Search Intelligence via Context
Summarization
作者: Xixi Wu, Kuan Li, Yida Zhao, Liwen Zhang, Litu Ou, Huifeng Yin, Zhongwang Zhang, Yong Jiang, Pengjun Xie, Fei Huang, Minhao Cheng, Shuai Wang, Hong Cheng, Jingren Zhou
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-16 | 👍 点赞数: 60
摘要:
论文标题:ReSum:通过上下文摘要解锁长视野搜索智能
中文摘要:
基于大语言模型(Large Language Model, LLM)的网页智能体在知识密集型任务中表现出色,但在如ReAct等依赖上下文窗口的范式中受限于上下文长度限制。涉及多个实体、错综复杂关系以及高度不确定性的复杂查询,往往需要大量搜索循环,导致上下文预算在获得完整解答前便迅速耗尽。为应对这一挑战,我们提出ReSum——一种通过周期性上下文摘要实现无限探索的新范式。ReSum将不断增长的交互历史压缩为紧凑的推理状态,在规避上下文长度限制的同时,保留对先前发现的认知与记忆。为实现该范式的有效适配,我们进一步提出ReSum-GRPO方法,将GRPO算法与分段轨迹训练及优势值广播(advantage broadcasting)相结合,使智能体适应基于摘要的推理模式。在三个基准测试中,针对不同规模的网页智能体所开展的大量实验表明,ReSum相较ReAct平均绝对性能提升4.5%,而经ReSum-GRPO训练后进一步提升达8.2%。值得注意的是,仅使用1K训练样本的情况下,我们的WebResummer-30B(即WebSailor-30B经ReSum-GRPO训练的版本)在BrowseComp-zh上实现了33.3%的Pass@1成绩,在BrowseComp-en上达到18.3%,超越了现有的开源网页智能体。
7. Hunyuan3D Studio: End-to-End AI Pipeline for Game-Ready 3D Asset
Generation
作者: Biwen Lei, Yang Li, Xinhai Liu, Shuhui Yang, Lixin Xu, Jingwei Huang, Ruining Tang, Haohan Weng, Jian Liu, Jing Xu, Zhen Zhou, Yiling Zhu, Jiankai Xing, Jiachen Xu, Changfeng Ma, Xinhao Yan, Yunhan Yang, Chunshi Wang, Duoteng Xu, Xueqi Ma, Yuguang Chen, Jing Li, Mingxin Yang, Sheng Zhang, Yifei Feng, Xin Huang, Di Luo, Zebin He, Puhua Jiang, Changrong Hu, Zihan Qin, Shiwei Miao, Haolin Liu, Yunfei Zhao, Zeqiang Lai, Qingxiang Lin, Zibo Zhao, Kunhong Li, Xianghui Yang, Huiwen Shi, Xin Yang, Yuxuan Wang, Zebin Yao, Yihang Lian, Sicong Liu, Xintong Han, Wangchen Qin, Caisheng Ouyang, Jianyin Liu, Tianwen Yuan, Shuai Jiang, Hong Duan, Yanqi Niu, Wencong Lin, Yifu Sun, Shirui Huang, Lin Niu, Gu Gong, Guojian Xiao, Bojian Zheng, Xiang Yuan, Qi Chen, Jie Xiao, Dongyang Zheng, Xiaofeng Yang, Kai Liu, Jianchen Zhu, Lifu Wang, Qinglin Lu, Jie Liu, Liang Dong, Fan Jiang, Ruibin Chen, Lei Wang, Chao Zhang, Jiaxin Lin, Hao Zhang, Zheng Ye, Peng He, Runzhou Wu, Yinhe Wu, Jiayao Du, Jupeng Chen, Xinyue Mao, Dongyuan Guo, Yixuan Tang, Yulin Tsai, Yonghao Tan, Jiaao Yu, Junlin Yu, Keren Zhang, Yifan Li, Peng Chen, Tian Liu, Di Wang, Yuhong Liu, Linus, Jie Jiang, Zhuo Chen, Chunchao Guo
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-16 | 👍 点赞数: 34
摘要:
论文标题:Hunyuan3D Studio:面向游戏级3D资产生成的端到端AI流程
中文摘要:
高质量3D资产的创建是现代游戏开发的核心环节,长期以来依赖于劳动密集且高度专业化的制作流程。本文提出Hunyuan3D Studio——一个端到端的人工智能驱动内容创作平台,旨在通过自动化和简化游戏级3D资产的生成过程,彻底革新游戏生产管线。Hunyuan3D Studio的核心在于将一系列先进的神经网络模块(如部件级3D生成、多边形生成、语义化UV等)整合为一个统一且用户友好的系统。该集成化框架能够将单一的概念图或文本描述快速转化为具备优化几何结构和高保真PBR材质的完整、可投入生产的高质量3D模型。我们证明,由Hunyuan3D Studio生成的资产不仅在视觉上具有高度表现力,而且符合现代游戏引擎严格的工程技术要求,显著缩短迭代周期,并大幅降低3D内容创作的门槛。通过在创意构想与技术资产之间建立无缝桥梁,Hunyuan3D Studio标志着AI辅助工作流在游戏开发与交互式媒体领域迈出了重要一步。
8. Single-stream Policy Optimization
作者: Zhongwen Xu, Zihan Ding
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-16 | 👍 点赞数: 32
摘要:
论文标题:单流策略优化
中文摘要:
我们从单流视角重新审视面向大语言模型(Large Language Models, LLMs)的策略梯度优化方法。当前主流的基于分组的方法(如GRPO)虽然通过在线计算基线来降低方差,但存在关键缺陷:频繁出现的退化分组会抹除学习信号,而同步屏障则限制了可扩展性。为此,我们提出单流策略优化(Single-stream Policy Optimization, SPO),从设计上消除了这些问题。SPO摒弃了按组计算的基线,转而采用一个持续更新且基于KL散度自适应的值追踪器,并在整个批次范围内对优势进行全局归一化,从而为每个样本提供稳定且低方差的学习信号。由于无需分组,SPO能够实现更高的吞吐量,在生成长度较长或集成工具调用等生成时间差异较大的场景中表现出更强的可扩展性。此外,持续更新的值追踪器自然支持通过优先级采样构建自适应课程学习机制。基于Qwen3-8B的实验表明,SPO相比GRPO具有更平滑的收敛过程和更高的准确率,同时避免了在退化分组上的计算浪费。消融研究证实,SPO的性能提升源于其在基线估计和优势归一化方面的原则性设计,为LLM推理任务提供了更鲁棒且高效的优化路径。在五个高难度数学基准测试中,使用Qwen3-8B时,SPO在maj@32指标上相较GRPO平均提升了3.4个百分点(pp),其中在多个挑战性数据集上取得显著绝对增益,包括BRUMO 25上+7.3 pp、AIME 25上+4.4 pp、HMMT 25上+3.3 pp,并在不同k值下的pass@k指标上均实现一致的相对提升。SPO的成功挑战了当前强化学习算法中不断增加附加复杂性的趋势,凸显了一条以基本原理而非架构修补驱动大模型推理能力进步的新路径。
9. 3D Aware Region Prompted Vision Language Model
作者: An-Chieh Cheng, Yang Fu, Yukang Chen, Zhijian Liu, Xiaolong Li, Subhashree Radhakrishnan, Song Han, Yao Lu, Jan Kautz, Pavlo Molchanov, Hongxu Yin, Xiaolong Wang, Sifei Liu
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-16 | 👍 点赞数: 12
摘要:
论文标题:3D感知的区域提示视觉语言模型
中文摘要:
本文提出了一种空间区域3D(SR-3D)感知的视觉语言模型,该模型通过共享的视觉标记空间,将单视角2D图像与多视角3D数据进行关联。SR-3D支持灵活的区域提示功能,允许用户在任意图像帧上使用边界框、分割掩码进行标注,甚至直接在3D空间中进行标注,而无需对多个视角进行 exhaustive 的标注。我们通过将3D位置嵌入信息融入2D视觉特征来实现这一目标,从而使3D模型能够利用强大的2D先验知识,在不同视角间进行更精确的空间推理,即使感兴趣物体未在同一视图中共现也能有效处理。在通用2D视觉语言任务和专门的3D空间理解基准上的大量实验表明,SR-3D在统一2D与3D表征空间方面表现出色,达到了最先进的性能。此外,我们还发现该模型可应用于真实场景视频中,即使缺乏传感器提供的3D输入或真实的3D标 注,SR-3D仍能准确推断出空间关系和度量信息。
10. EconProver: Towards More Economical Test-Time Scaling for Automated
Theorem Proving
作者: Mukai Li, Linfeng Song, Zhenwen Liang, Jiahao Xu, Shansan Gong, Qi Liu, Haitao Mi, Dong Yu
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-16 | 👍 点赞数: 8
摘要:
论文标题:EconProver:迈向更高效的定理证明推理时扩展方法
中文摘要:
近年来,大语言模型(Large Language Models, LLMs)在自动定理证明(Automated Theorem Proving, ATP)领域取得了显著进展,主要得益于广泛应用的推理时扩展策略,尤其是反射式思维链(reflective Chain-of-Thought, CoT)推理和增加采样次数。然而,这些方法均带来了显著的推理计算开销。此外,现有的成本分析通常仅控制采样次数,而忽略了不同扩展策略所引入的采样成本差异。本文系统比较了不同推理时扩展策略在ATP模型上的效率,并揭示了当前主流开源方法在效率方面的不足。在此基础上,我们探索了在保持原有性能的前提下,显著降低令牌使用量和采样次数的方法。具体而言,我们提出了两种可互补集成于统一框架EconRL中的优化方法,以实现协同增效:(1)一种动态思维链(CoT)切换机制,旨在减少不必要的令牌消耗;(2)结合可训练前缀的多样化并行扩展强化学习(Diverse parallel-scaled reinforcement learning, RL),在有限采样次数下提升证明通过率。在miniF2F和ProofNet数据集上的实验表明,我们的EconProver仅需基线方法12%的计算成本,即可达到相当的性能水平。本研究为部署轻量化且高性能的自动定理证明模型提供了切实可行的技术路径与实践指导。
11. Stable Part Diffusion 4D: Multi-View RGB and Kinematic Parts Video
Generation
作者: Hao Zhang, Chun-Han Yao, Simon Donné, Narendra Ahuja, Varun Jampani
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-12 | 👍 点赞数: 6
摘要:
论文标题:Stable Part Diffusion 4D:多视角RGB与运动部件视频生成
中文摘要:
本文提出Stable Part Diffusion 4D(SP4D),一种从单目输入生成配对的RGB视频和运动部件(kinematic part)视频的框架。与传统依赖外观语义线索的部件分割方法不同,SP4D学习生成运动部件——即与物体关节结构对齐、且在不同视角和时间上保持一致的组成部分。SP4D采用双分支扩散模型,联合合成RGB帧及其对应的部件分割图。为简化网络结构并灵活支持不同数量的部件,我们引入一种空间颜色编码方案,将部件掩码映射为连续的类RGB图像。该编码方式使得分割分支可共享RGB分支的潜在空间VAE,同时通过简单的后处理即可恢复出部件分割结果。此外,我们设计了双向扩散融合(Bidirectional Diffusion Fusion, BiDiFuse)模块,并结合对比部件一致性损失(contrastive part consistency loss),以增强跨分支的一致性,促进部件预测在空间和时间上的对齐。实验表明,所生成的2D部件图可被提升至3D,进而推导出骨骼结构与调和蒙皮权重(harmonic skinning weights),仅需少量人工调整。为训练与评估SP4D,我们构建了KinematicParts20K数据集,该数据集精选自Objaverse XL(Deitke等,2023),包含超过2万个多视图带骨骼绑定的物体,并配有同步的多视角RGB视频及部件视频序列。实验结果显示,SP4D在多种复杂场景中均表现出强泛化能力,包括真实世界视频、新生成物体以及罕见的关节姿态,能够生成适用于下游动画与运动相关任务的、具备运动感知能力的输出结果。
12. Multimodal Reasoning for Science: Technical Report and 1st Place
Solution to the ICML 2025 SeePhys Challenge
作者: Hao Liang, Ruitao Wu, Bohan Zeng, Junbo Niu, Wentao Zhang, Bin Dong
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-07 | 👍 点赞数: 6
摘要:
论文标题:面向科学的多模态推理:技术报告及ICML 2025 SeePhys挑战赛第一名方案
中文摘要:
多模态推理在人工智能领域仍是一项基础性挑战。尽管基于文本的推理已取得显著进展,但即便是GPT-o3等最先进的模型,在多模态场景下的表现依然难以保持稳定。为弥补这一差距,我们提出了一种基于图注辅助的推理框架,有效连接了视觉与文本两种模态。该方法在ICML 2025人工智能用于数学研讨会与挑战赛2:SeePhys中荣获第一名,充分证明了其有效性与鲁棒性。此外,我们在几何推理基准MathVerse上验证了该方法的泛化能力,进一步展示了其广泛适用性。我们的代码已公开发布于 https://github.com/OpenDCAI/SciReasoner。
13. RAPTOR: A Foundation Policy for Quadrotor Control
作者: Jonas Eschmann, Dario Albani, Giuseppe Loianno
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-15 | 👍 点赞数: 5
摘要:
论文标题:RAPTOR:一种用于四旋翼控制的基础策略
中文摘要:
人类在适应新环境时表现出极高的数据利用效率,例如驾驶一辆从未接触过的汽车。相比之下,当前的机器人控制系统(如通过强化学习训练的神经网络策略)通常高度特化于单一环境。由于这种过拟合特性,即使面对微小变化(如仿真到现实之间的差异,Sim2Real gap),这些系统也容易失效,且对系统的任何细微改动都往往需要重新进行系统辨识和训练。本文提出了RAPTOR——一种用于训练高度自适应四旋翼控制基础策略的方法。该方法能够仅用一个端到端的神经网络策略,实现对多种不同类型四旋翼飞行器的有效控制。我们测试了10种真实存在的四旋翼平台,重量从32克到2.4公斤不等,涵盖不同电机类型(有刷与无刷)、机架类型(柔性与刚性)、螺旋桨类型(双叶、三叶、四叶)以及飞控系统(PX4/Betaflight/Crazyflie/M5StampFly)。实验表明,一个仅有三层、参数量仅为2084的极小规模神经网络策略,即可实现对各种未见过平台的零样本迁移适应。这种基于上下文学习(In-Context Learning)的适应能力得益于隐藏层中引入的递归结构。该策略通过一种新颖的元模仿学习(Meta-Imitation Learning)算法进行训练:首先采样1000种不同的四旋翼配置,并使用强化学习为每种配置分别训练一个教师策略;随后将这1000个教师策略蒸馏融合为一个统一的、具备自适应能力的学生策略。结果表明,该基础策略可在毫秒级时间内实现对未见四旋翼平台的零样本适应。我们对这一基础策略在多种复杂场景下进行了广泛验证,包括轨迹跟踪、室内外飞行、风扰、外力碰撞以及更换不同螺旋桨等情况。
14. Phi: Preference Hijacking in Multi-modal Large Language Models at
Inference Time
作者: Yifan Lan, Yuanpu Cao, Weitong Zhang, Lu Lin, Jinghui Chen
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-15 | 👍 点赞数: 4
摘要:
论文标题:Phi:多模态大语言模型在推理阶段的偏好劫持
中文摘要: 近年来,多模态大语言模型(Multimodal Large Language Models, MLLMs)在多个领域受到广泛关注。然而,其广泛应用也引发了严重的安全问题。本文揭示了一种MLLMs的新安全风险:通过精心优化的图像,可以任意操控MLLMs的输出偏好。此类攻击通常生成在上下文上合理但带有偏见的回应,这些回应既不明显有害也不违反伦理,因而难以被察觉。具体而言,我们提出一种名为“偏好劫持”(Preference Hijacking,简称Phi)的新方法,通过使用经过偏好劫持的图像来操纵MLLM的响应倾向。该方法在推理阶段即可实施,无需对模型进行任何修改。此外,我们还提出了一种通用劫持扰动——一种可迁移的组件,能够嵌入到不同图像中,从而将MLLM的输出引导至攻击者指定的任意偏好方向。在多种任务上的实验结果验证了我 们方法的有效性。Phi的代码已公开于 https://github.com/Yifan-Lan/Phi。
15. zELO: ELO-inspired Training Method for Rerankers and Embedding Models
作者: Nicholas Pipitone, Ghita Houir Alami, Advaith Avadhanam, Anton Kaminskyi, Ashley Khoo
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-16 | 👍 点赞数: 3
摘要:
论文标题:zELO:一种受ELO启发的重排序模型与嵌入模型训练方法
中文摘要:
我们提出了一种名为zELO的新型训练方法,该方法通过分析排序任务在统计上等价于Thurstone模型,从而优化检索性能。基于zELO方法,我们利用无监督数据训练了一系列最先进的开源权重重排序模型:zerank-1 和 zerank-1-small。这些模型在多个领域(包括金融、法律、代码和STEM)的检索任务中均取得了最高的得分,在NDCG@10和Recall指标上均优于闭源的专有重排序模型。此外,这些模型展现出极强的通用性,在跨领域及私有客户数据集上均保持了出色的零样本(zero-shot)性能。训练数据包含11.2万个查询,每个查询对应100个文档,并基于未标注的查询与文档端到端完成训练,总训练耗时不到10,000个H100 GPU小时。
16. Exact Coset Sampling for Quantum Lattice Algorithms
作者: Yifan Zhang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-15 | 👍 点赞数: 3
摘要:
论文标题:用于量子格密码算法的精确陪集采样
中文摘要: 我们为近期一种采用复高斯窗的窗口化量子傅里叶变换(windowed-QFT)格算法中存在争议的第9步“定义域扩展”(domain-extension)提供了一个简单、完全正确且假设较少的替代方案~chen2024quantum。原论文中第9步存在周期性与支撑集不匹配的问题。我们提出一种基于对移差(pair-shift difference)的构造方法,能够相干地消除所有未知偏移量,生成在ZP上精确均匀的中国剩余定理(CRT)陪集态,并随后利用量子傅里叶变换(QFT)强制实现预期的模线性关系。该酉变换是可逆的,仅需使用poly(log M_2)个量子门,且保持了原算法的渐近复杂度。项目主页:https://github.com/yifanzhang-pro/quantum-lattice。
17. ROOM: A Physics-Based Continuum Robot Simulator for Photorealistic
Medical Datasets Generation
作者: Salvatore Esposito, Matías Mattamala, Daniel Rebain, Francis Xiatian Zhang, Kevin Dhaliwal, Mohsen Khadem, Subramanian Ramamoorthy
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-16 | 👍 点赞数: 1
摘要:
论文标题:ROOM:一种基于物理的连续体机器人仿真器,用于生成逼真的医学数据集
中文摘要:
连续体机器人通过进入复杂的肺部支气管并实现靶向干预,正在推动支气管镜技术的发展。然而,其发展受到缺乏真实训练与测试环境的限制:由于伦理约束和患者安全问题,真实临床数据难以获取;而自主算法的开发又依赖于逼真的成像数据和物理反馈。本文提出 ROOM(医学中的真实光学观测),一个专为生成逼真支气管镜训练数据而设计的综合性仿真框架。该框架利用患者的CT扫描数据,可渲染出多种模态的传感器数据,包括具有真实噪声和光线镜面反射特性的RGB图像、度量尺度下的深度图、表面法向量、光流以及点云,且分辨率达到医学应用所需水平。我们在两个典型的医疗机器人任务——多视角位姿估计和单目深度估计中验证了ROOM生成数据的有效性 ,揭示了现有最先进方法在迁移到此类医疗场景时所面临的多样化挑战。此外,我们展示了ROOM生成的数据可用于微调现有的深度估计模型,以克服这些挑战,并支持导航等其他下游应用。我们预期,ROOM将能够在多样化的患者解剖结构和手术场景中实现大规模数据生成,而这些场景在临床环境中极难采集。代码与数据地址:https://github.com/iamsalvatore/room。
18. Multiple Instance Learning Framework with Masked Hard Instance Mining
for Gigapixel Histopathology Image Analysis
作者: Wenhao Tang, Sheng Huang, Heng Fang, Fengtao Zhou, Bo Liu, Qingshan Liu
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-15 | 👍 点赞数: 1
摘要:
论文标题:基于掩码难例挖掘的多实例学习框架在吉像素组织病理图像分析中的应用
中文摘要:
将病理图像数字化为吉像素级全切片图像(Whole Slide Images, WSIs)为计算病理学(CPath)开辟了新的研究方向。由于阳性组织仅占吉像素WSI的极小部分,现有的多实例学习(Multiple Instance Learning, MIL)方法通常依赖注意力机制来识别显著性实例。然而,这类方法容易偏向于易于分类的简单样本,而忽略了具有挑战性的困难样本。近期研究表明,困难样本对于准确建模判别边界至关重要。受此启发,本文提出一种新颖的结合掩码难例挖掘的多实例学习框架(MHIM-MIL),该框架采用Siamese结构并引入一致性约束以探索难例实例。MHIM-MIL通过类别感知的实例概率,利用动量教师模型(momentum teacher)对显著性实例进行掩码,从而隐式地挖掘难例用于学生模型的训练。为了获取多样化且非冗余的难例实例,我们引入大规模随机掩码策略,并设计全局特征回溯网络(global recycle network)以降低关键特征丢失的风险。此外,学生模型通过指数移动平均方式更新教师模型,使系统能够在后续训练迭代中持续发现新的难例,同时提升优化过程的稳定性。在癌症诊断、亚型分类、生存分析任务以及12个基准数据集上的实验结果表明,MHIM-MIL在性能和效率方面均优于当前最先进的方法。代码已公开发布于:https://github.com/DearCaat/MHIM-MIL。
19. Optimal Brain Restoration for Joint Quantization and Sparsification of
LLMs
作者: Hang Guo, Yawei Li, Luca Benini
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-14 | 👍 点赞数: 1
摘要:
论文标题:面向大语言模型联合量化与稀疏化的最优脑恢复方法
中文摘要:
近年来,大语言模型(LLM)压缩技术(如量化和剪枝)取得了显著进展。然而,随着这些方法逐渐逼近各自的性能极限,单纯依赖某一种技术实现进一步压缩变得愈发困难。在本研究中,我们探索了一种替代方案——将量化与稀疏性相结合。尽管这一联合策略具有潜力,但由于二者对权重分布的要求存在内在冲突而带来了新的挑战:量化倾向于紧凑的权重范围,而剪枝则更受益于高方差的分布。为应对这一问题,我们提出了“最优脑恢复”(Optimal Brain Restoration, OBR)——一种通用且无需重新训练的框架,通过在剪枝与量化之间进行误差补偿来协调两者的优化目标。OBR基于二阶梯度(Hessian)目标函数,以最小化下游任务的性能下降,并通过代理近似将其转化为可解问题,最终利用分组误差补偿机制获得闭式解。实验结果表明,OBR能够在现有大语言模型上实现激进的W4A4KV4量化并引入50%的稀疏性,相较于FP16密集模型,最高可实现4.72倍的加速和6.4倍的内存占用降低。
20. Sound Matching an Analogue Levelling Amplifier Using the Newton-Raphson
Method
作者: Chin-Yun Yu, György Fazekas
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-12
摘要:
论文标题:使用牛顿-拉夫森方法对模拟电平放大器进行声音匹配
中文摘要:
近年来,通过数字信号处理算法实现虚拟模拟建模的自动微分方法受到广泛关注。这类算法通常比依赖密集矩阵乘法的黑箱神经网络具有更高的计算效率。由于其可微特性,它们可以与神经网络结合,并通过梯度下降算法进行联合训练,从而构建更高效的系统。此外,信号处理算法的参数量远少于神经网络,使得牛顿-拉夫森(Newton-Raphson)方法得以应用。该方法相较于梯度下降具有更快且更稳定的收敛性能,但代价是需要二次规模的存储空间。本文提出一种利用前馈式数字压缩器并通过牛顿-拉夫森方法优化其参数来仿真模拟电平放大器的方法。我们证明了该数字压缩器能够有效逼近目标设备——Teletronix LA-2A 的行为特性。文中对多种海森(Hessian)矩阵计算策略进行了基准测试,并采用递归滤波器的并行算法,以在现代GPU上实现高效的训练过程。最终模型被实现为一个VST插件,并在 https://github.com/aim-qmul/4a2a 开源发布。
21. Struct-Bench: A Benchmark for Differentially Private Structured Text
Generation
作者: Shuaiqi Wang, Vikas Raunak, Arturs Backurs, Victor Reis, Pei Zhou, Sihao Chen, Longqi Yang, Zinan Lin, Sergey Yekhanin, Giulia Fanti
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-12
摘要:
论文标题:Struct-Bench:面向差分隐私结构化文本生成的基准测试
中文摘要:
差分隐私(DP)合成数据生成是一种极具前景的技术,可用于利用那些因隐私限制而无法公开用于模型训练或其他分析的私有数据集。尽管现有研究主要集中在生成私有的非结构化文本和图像数据上,但在企业实际场景中,结构化数据(例如表格数据)更为常见,且通常包含自然语言字段或成分。现有的合成数据评估方法(如FID)难以有效捕捉此类数据集的结构特性及相关性。在本研究中,我们提出了Struct-Bench——一个用于评估包含自然语言内容的结构化数据集所生成合成数据的框架与基准测试工具。Struct-Bench框架要求用户提供其数据集结构的上下文无关文法(Context-Free Grammar, CFG)表示。我们的基准包含5个真实世界数据集和2个人工生成的合成数据集,每个数据集均附有相应的CFG标注。实验表明,即使对当前最先进的差分隐私合成数据生成方法而言,这些数据集仍构成显著挑战。Struct-Bench还提供了多种评 估指标的参考实现以及一个排行榜,为研究人员提供了一个标准化的评估平台,以比较和研究隐私保护型合成数据生成方法。此外,我们还展示了一个案例研究,说明如何利用Struct-Bench提升Private Evolution(PE)方法在结构化数据上的合成数据质量。该基准测试及排行榜已公开发布,获取地址为:https://struct-bench.github.io。