每日论文 - 2025年09月18日
论文总数: 19
1. Hala Technical Report: Building Arabic-Centric Instruction & Translation
Models at Scale
作者: Hasan Abed Al Kader Hammoud, Mohammad Zbeeb, Bernard Ghanem
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-17 | 👍 点赞数: 79
摘要:
论文标题:Hala技术报告:大规模构建以阿拉伯语为中心的指令与翻译模型
中文摘要:
我们提出了Hala,这是一系列通过“翻译-微调”(translate-and-tune)流程构建的以阿拉伯语为中心的指令与翻译模型。我们首先将一个强大的阿拉伯语↔英语(AR↔EN)教师模型压缩至FP8精度,在不损失质量的前提下实现近两倍的推理吞吐量,并利用该模型生成高保真的双语监督数据。随后,我们在这些数据上对轻量级语言模型LFM2-1.2B进行微调,并用其将高质量的英文指令集翻译为阿拉伯语,构建了一个规模达百万级、专为指令遵循任务优化的阿拉伯语语料库。我们训练了参数量分别为3.5亿、7亿、12亿和90亿的Hala系列模型,并采用球面线性插值(slerp)融合方法,在增强阿拉伯语专业化能力的同时保留基础模型的优势。在以阿拉伯语为中心的基准测试中,Hala模型在“纳米”(≤2B)和“小型”(7–9B)两个类别中均取得了当前最优的性能表现,超越了其对应的基础模型。我们公开发布了模型、数据、评测代码与训练方案,以推动阿拉伯语自然语言处理领域的研究进展。
2. SAIL-VL2 Technical Report
作者: Weijie Yin, Yongjie Ye, Fangxun Shu, Yue Liao, Zijian Kang, Hongyuan Dong, Haiyang Yu, Dingkang Yang, Jiacong Wang, Han Wang, Wenzhuo Liu, Xiao Liang, Shuicheng Yan, Chao Feng
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-17 | 👍 点赞数: 37
摘要:
论文标题:SAIL-VL2 技术报告
中文摘要:
本文介绍了 SAIL-VL2,一个面向全面多模态理解与推理的开源视觉-语言基础模型(LVM)系列。作为 SAIL-VL 的升级版本,SAIL-VL2 在 20 亿(2B)和 80 亿(8B)参数量级上,在广泛的图像与视频基准测试中均达到了最先进的性能,展现出从细粒度感知到复杂推理的卓越能力。其优异表现主要得益于三项核心技术创新:第一,构建了一个大规模数据 curated 流程,结合评分与过滤策略,显著提升了图文描述、OCR、问答及视频数据的质量与分布均衡性,从而提高了训练效率;第二,采用渐进式训练框架,首先基于强大的预训练视觉编码器(SAIL-ViT),继而进行多模态预训练,最终通过“思维融合”的监督微调与强化学习混合范式(thinking-fusion SFT-RL),系统性地增强模型能力;第三,在架构设计上突破了传统密集型大语言模型的限制,引入高效的稀疏化专家混合模型(Mixture-of-Experts, MoE)结构。得益于上述创新,SAIL-VL2 在共计 106 个数据集上表现出强劲竞争力,并在 MMMU 和 MathVista 等高难度推理基准上取得了领先成果。此外,在 OpenCompass 榜单中,SAIL-VL2-2B 成为 40 亿参数以下已正式发布的开源模型中排名第一的模型,为开源多模态社区提供了一个高效且可扩展的基础平台。
3. PANORAMA: The Rise of Omnidirectional Vision in the Embodied AI Era
作者: Xu Zheng, Chenfei Liao, Ziqiao Weng, Kaiyu Lei, Zihao Dongfang, Haocong He, Yuanhuiyi Lyu, Lutao Jiang, Lu Qi, Li Chen, Danda Pani Paudel, Kailun Yang, Linfeng Zhang, Luc Van Gool, Xuming Hu
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-16 | 👍 点赞数: 26
摘要:
论文标题:PANORAMA:具身智能时代全向视觉的兴起
中文摘要:
全向视觉通过360度视野来感知和理解环境,在机器人、工业检测和环境监测等领域正变得日益重要。与传统的针孔视觉相比,全向视觉能够提供更全面的环境感知能力,显著提升场景感知的完整性以及决策的可靠性。然而,该领域的基础研究长期以来落后于传统针孔视觉。本次报告展示了在具身智能(Embodied AI)时代的一个新兴趋势:在不断增长的产业需求和学术关注推动下,全向视觉技术正迅速发展。我们重点介绍了全向视觉在生成、感知、理解方面的最新突破,以及相关数据集的进展。结合学术界与工业界的洞见,我们提出了一种面向具身智能时代的理想全景系统架构——PANORAMA,该架构包含四个关键子系统。此外,我们深入探讨了全景视觉与具身智能交叉领域中的新兴趋势、跨社区影响、未来发展方向以及开放性挑战。本综述整合了当前最先进的研究成果,为构建鲁棒、通用的全向视觉AI系统指明了未来研究面临的挑战与机遇。
4. GenExam: A Multidisciplinary Text-to-Image Exam
作者: Zhaokai Wang, Penghao Yin, Xiangyu Zhao, Changyao Tian, Yu Qiao, Wenhai Wang, Jifeng Dai, Gen Luo
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-17 | 👍 点赞数: 20
摘要:
论文标题:GenExam:一种多学科文本到图像的考试基准
中文摘要:
考试是衡量专家级智能的基本方式,需要综合的理解、推理与生成能力。现有的考试类基准主要关注理解和推理任务,而当前的生成类基准则侧重于世界知识和视觉概念的呈现,忽视了对严谨绘图考试的评估。本文提出了GenExam,这是首个面向多学科文本到图像考试的基准,包含跨越10个学科领域的1,000个样本,试题提示按照四级分类体系进行组织。每个题目均配有真实图像(ground-truth images)以及细粒度的评分要点,从而实现对语义正确性和视觉合理性的精确评估。实验表明,即使是GPT-Image-1和Gemini-2.5-Flash-Image等最先进的模型,其严格评分也低于15%,大多数模型的得分几乎为0,说明该基准具有极高的挑战性。通过将图像生成任务构建成考试形式,GenExam为评估模型在知识整合、推理与生成方面的能力提供了严格的测试平台,也为通向通用人工智能(AGI)的发展路径提供了新的洞见。
5. Scrub It Out! Erasing Sensitive Memorization in Code Language Models via
Machine Unlearning
作者: Zhaoyang Chu, Yao Wan, Zhikun Zhang, Di Wang, Zhou Yang, Hongyu Zhang, Pan Zhou, Xuanhua Shi, Hai Jin, David Lo
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-17 | 👍 点赞数: 18
摘要:
论文标题:擦除它!通过机器遗忘技术消除代码语言模型中的敏感记忆
中文摘要:
尽管代码语言模型(Code Language Models, CLMs)在代码生成、代码摘要等软件工程任务中表现出色,但近期的实证研究揭示了一个严重的隐私漏洞:这些模型会无意中记忆训练数据中的敏感信息,并在特定提示下以逐字方式复现机密内容。为应对这一问题,已有研究提出了诸如训练数据去重和引入差分隐私等方法。然而,这些方法在已部署的CLM上应用时均需进行完整的模型重新训练,带来巨大的计算开销。本文旨在回答一个关键的研究问题:能否以高效且有效的方式擦除CLM所记忆的敏感信息?
我们首次探索利用机器遗忘(machine unlearning)技术来消除CLM中的敏感记忆——这是一种无需完全重新训练即可从已训练模型中移除特定 信息的事后修改方法。具体而言,我们首先量化了CLM训练数据集中敏感信息的记忆风险,并构建了一个包含50,000个高风险敏感记忆样本的数据集作为遗忘目标。我们研究了两种广泛使用的基于梯度上升的遗忘方法:基础版本与约束版本,并进一步提出CodeEraser——一种更先进的变体,能够选择性地擦除代码中被记忆的敏感片段,同时保持周围代码的结构完整性和功能正确性。在三类主流CLM(即CodeParrot、CodeGen-Mono和Qwen2.5-Coder)上的大量实验验证了CodeEraser在消除目标敏感记忆方面的有效性与效率,同时显著保留了模型的实用性。
6. THOR: Tool-Integrated Hierarchical Optimization via RL for Mathematical
Reasoning
作者: Qikai Chang, Zhenrong Zhang, Pengfei Hu, Jiefeng Ma, Yicheng Pan, Jianshu Zhang, Jun Du, Quan Liu, Jianqing Gao
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-17 | 👍 点赞数: 14
摘要:
论文标题:THOR:基于强化学习的工具集成分层优化方法用于数学推理
中文摘要:
大语言模型(LLMs)在数学推理方面已取得显著进展,但在高精度任务(如数值计算和形式化符号 操作)上仍面临挑战。引入外部工具已成为弥补这一差距的有前景方向。尽管已有研究取得一定进展,现有方法仍面临三大关键难题:工具集成推理数据的构建、细粒度优化以及推理过程的增强。为克服这些局限,我们提出了THOR(Tool-Integrated Hierarchical Optimization via RL,基于强化学习的工具集成分层优化方法)。首先,我们提出TIRGen,一种基于多智能体Actor-Critic框架的生成流程,用于构建高质量的工具集成推理路径数据集,该流程与策略对齐,并能在不同模型间良好泛化。其次,为了实现细粒度的分层优化,我们设计了一种强化学习策略,联合优化轨迹层级的问题求解过程和步骤层级的代码生成过程。这一设计基于我们的核心发现:中间工具调用的成功与否,是预测最终答案正确性的强指标。最后,THOR在推理阶段引入了一种自我修正机制,利用工具的即时反馈动态修正错误的推理路径。我们的方法在多种不同类型的模型上展现出强大的泛化能力,无论是在具备推理能力的模型还是非推理模型中均表现优异。在多个数学推理基准测试中,THOR在同规模模型中达到了最先进的性能,同时在代码生成任务上也实现了持续提升。我们的代码将公开发布于 https://github.com/JingMog/THOR。
7. MedReseacher-R1: Expert-Level Medical Deep Researcher via A
Knowledge-Informed Trajectory Synthesis Framework
作者: Ailing Yu, Lan Yao, Jingnan Liu, Zhe Chen, Jiajun Yin, Yuan Wang, Xinhao Liao, Zhiling Ye, Ji Li, Yun Yue, Hansong Xiao, Hualei Zhou, Chunxiao Guo, Peng Wei, Jinjie Gu
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-20 | 👍 点赞数: 14
摘要:
论文标题:MedResearcher-R1:基于知识引导的轨迹合成框架构建专家级医学深度研究智能体
中文摘要:
近年来,基于大语言模型(Large Language Model, LLM)的智能体在多个领域展现出令人瞩目的能力,其中尤以深度研究系统为代表,在复杂的信息检索与综合任务中表现出卓越性能。尽管通用型深度研究智能体已取得显著成果,但在医学领域的应用仍面临严峻挑战,现有领先闭源系统在复杂医学基准测试中的准确率依然有限。其主要瓶颈在于两点:(1)模型缺乏足够的密集医学知识以支持临床推理;(2)现有框架缺少针对医学场景定制的专业化信息检索工具。
本文提出了一种面向医学领域的深度研究智能体,通过两项核心技术突破上述限制。首先,我们设计了一种新颖的数据合成框架,利用医学知识图谱,提取围绕罕见医学实体子图中的最长推理链,生成复杂的多跳问答样本对。其次,我们在通用工具基础上集成了一套自主构建的私有医学检索引擎,显著提升了医学信息的精准获取与综合能力。该方法在12个医学专科领域生成了超过2100条多样化推理轨迹,每条轨迹平均包含4.2次工具调用交互。
通过结合监督微调与基于复合奖励机制的在线强化学习的两 阶段训练范式,我们的MedResearcher-R1-32B模型在多项医学基准测试中取得了当前最优性能,同时在通用深度研究任务上保持了较强的竞争力。本研究表明,在架构设计、工具构建和训练数据生成方面进行有针对性的领域适配创新,可使规模更小的开源模型在专业领域超越更大规模的闭源系统。
8. Wan-Animate: Unified Character Animation and Replacement with Holistic
Replication
作者: Gang Cheng, Xin Gao, Li Hu, Siqi Hu, Mingyang Huang, Chaonan Ji, Ju Li, Dechao Meng, Jinwei Qi, Penchong Qiao, Zhen Shen, Yafei Song, Ke Sun, Linrui Tian, Feng Wang, Guangyuan Wang, Qi Wang, Zhongjian Wang, Jiayu Xiao, Sheng Xu, Bang Zhang, Peng Zhang, Xindi Zhang, Zhe Zhang, Jingren Zhou, Lian Zhuo
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-17 | 👍 点赞数: 12
摘要:
论文标题:Wan-Animate:基于整体复现的统一化角色动画生成与替换
中文摘要:
本文提出Wan-Animate,一种用于角色动画生成与替换的统一框架。给定一张角色图像和一段参考视频,Wan-Animate能够通过精确复现视频中角色的表情与动作,生成高保真的角色动画视频;或者将生成的角 色动画无缝融入参考视频中,替换原始角色,同时复现场景的光照与色彩色调,实现自然的环境融合。Wan-Animate基于Wan模型构建,为适配角色动画任务,我们采用改进的输入范式,以区分参考条件与生成区域,该设计将多种任务统一于一种共通的符号化表征。我们利用空间对齐的骨骼信号复现身体动作,并从源图像中提取隐式的面部特征以重演表情,从而实现高度可控且富有表现力的角色视频生成。此外,为了提升角色替换时的环境融合效果,我们设计了一个辅助性的重光照LoRA(Relighting LoRA)模块,该模块在保持角色外观一致性的同时,准确迁移目标场景的光照与色彩风格。实验结果表明,Wan-Animate在多项指标上达到了最先进的性能。我们将公开发布模型权重及源代码,致力于推动相关领域的开放研究。
9. MARS2 2025 Challenge on Multimodal Reasoning: Datasets, Methods,
Results, Discussion, and Outlook
作者: Peng Xu, Shengwu Xiong, Jiajun Zhang, Yaxiong Chen, Bowen Zhou, Chen Change Loy, David A. Clifton, Kyoung Mu Lee, Luc Van Gool, Ruiming He, Ruilin Yao, Xinwei Long, Jirui Huang, Kai Tian, Sa Yang, Yihua Shao, Jin Feng, Yue Zhong, Jiakai Zhou, Cheng Tang, Tianyu Zou, Yifang Zhang, Junming Liang, Guoyou Li, Zhaoxiang Wang, Qiang Zhou, Yichen Zhao, Shili Xiong, Hyeongjin Nam, Jaerin Lee, Jaeyoung Chung, JoonKyu Park, Junghun Oh, Kanggeon Lee, Wooseok Lee, Juneyoung Ro, Turghun Osman, Can Hu, Chaoyang Liao, Cheng Chen, Chengcheng Han, Chenhao Qiu, Chong Peng, Cong Xu, Dailin Li, Feiyu Wang, Feng Gao, Guibo Zhu, Guopeng Tang, Haibo Lu, Han Fang, Han Qi, Hanxiao Wu, Haobo Cheng, Hongbo Sun, Hongyao Chen, Huayong Hu, Hui Li, Jiaheng Ma, Jiang Yu, Jianing Wang, Jie Yang, Jing He, Jinglin Zhou, Jingxuan Li, Josef Kittler, Lihao Zheng, Linnan Zhao, Mengxi Jia, Muyang Yan, Nguyen Thanh Thien, Pu Luo, Qi Li, Shien Song, Shijie Dong, Shuai Shao, Shutao Li, Taofeng Xue, Tianyang Xu, Tianyi Gao, Tingting Li, Wei Zhang, Weiyang Su, Xiaodong Dong, Xiao-Jun Wu, Xiaopeng Zhou, Xin Chen, Xin Wei, Xinyi You, Xudong Kang, Xujie Zhou, Xusheng Liu, Yanan Wang, Yanbin Huang, Yang Liu, Yang Yang, Yanglin Deng, Yashu Kang, Ye Yuan, Yi Wen, Yicen Tian, Yilin Tao, Yin Tang, Yipeng Lin, Yiqing Wang, Yiting Xi, Yongkang Yu, Yumei Li, Yuxin Qin, Yuying Chen, Yuzhe Cen, Zhaofan Zou, Zhaohong Liu, Zhehao Shen, Zhenglin Du, Zhengyang Li, Zhenni Huang, Zhenwei Shao, Zhilong Song, Zhiyong Feng, Zhiyu Wang, Zhou Yu, Ziang Li, Zihan Zhai, Zijian Zhang, Ziyang Peng, Ziyun Xiao, Zongshu Li
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-17 | 👍 点赞数: 9
摘要:
论文标题:MARS2 2025 多模态推理挑战赛:数据集、方法、结果、讨论与展望
中文摘要:
本文回顾了MARS2 2025多模态推理挑战赛。我们旨在通过一个大规模基准测试,整合多模态机器学习与大语言模型(LLMs)领域的多种技术路径,以帮助研究人员更好地追踪这一快速发展的前沿进展。与此同时,越来越多的测试平台推动了通用大语言模型的发展。因此,今年的MARS2挑战赛聚焦于真实世界和特定领域的应用场景,以拓展多模态大语言模型(MLLMs)在复杂推理任务中的实际应用。我们的组织团队发布了两个定制化数据集——Lens 和 AdsQA,分别用于支持12种日常场景下的通用推理以及广告视频中的领域专用推理。我们评估了40多个基线模型,涵盖通用型MLLM和面向特定任务的模型,并设立了三个竞赛赛道:真实场景中的视觉定位(VG-RS)、具备空间感知能力的视觉问答(VQA-SA),以及创意广告视频中的视觉推理(VR-Ads)。最终,来自知名学术机构和工业界的76支队伍完成注册,共收到1200余次提交,其中40余项有效提交进入排名榜单。我们的数据集、代码库(包含40多个基线模型及15种以上参赛者方法)以及排行榜均已公开发布在MARS2研讨会官网及GitHub组织页面 https://github.com/mars2workshop/,未来将持续更新相关信息并发布后续活动通知。
10. Improving Context Fidelity via Native Retrieval-Augmented Reasoning
作者: Suyuchen Wang, Jinlin Wang, Xinyu Wang, Shiqi Li, Xiangru Tang, Sirui Hong, Xiao-Wen Chang, Chenglin Wu, Bang Liu
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-17 | 👍 点赞数: 7
摘要:
论文标题:通过原生检索增强推理提升上下文保真度
中文摘要: 大型语言模型(LLMs)在上下文保真度方面常面临挑战,其在基于给定信息回答问题时容易产生不一致的答案。现有方法要么依赖昂贵的监督微调来在生成答案后提取证据,要么训练模型执行网络搜索,但未必能改善对给定上下文的有效利用。我们提出CARE——一种新颖的原生检索增强推理框架,该框架教会LLM在自身的推理过程中显式地整合上下文中的证据,并利用模型自身的检索能力。我们的方法仅需少量标注的证据数据,通过在推理链中有策略地检索上下文中的词元(tokens),显著提升了检索准确率和答案生成性能。在多个真实世界及反事实问答基准上的大量实验表明,本方法在性能上显著优于监督微调、传统的检索增强生成方法以及外部检索解决方案。本研究标志着在提升LLM处理知识密集型任务的准确性、可靠性和效率方面迈出了基础性的一步。
11. LLM-I: LLMs are Naturally Interleaved Multimodal Creators
作者: Zirun Guo, Feng Zhang, Kai Jia, Tao Jin
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-17 | 👍 点赞数: 7
摘要:
论文标题:LLM-I:大语言模型天然是交错式多模态创造者
中文摘要:
我们提出了LLM-交错(LLM-Interleaved,简称LLM-I),一种灵活且动态的框架,将图文交错生成重新定义为工具使用问题。LLM-I旨在突破当前统一模型存在的“单一工具”瓶颈,这类模型通常局限于合成图像生成,在需要事实依据或程序精确性的任务上表现不佳。我们的框架赋予一个核心大语言模型(LLM)或多模态大语言模型(MLLM)智能体能力,以高效调度一套多样化的专用视觉工具,包括在线图像搜索、基于扩散模型的图像生成、代码执行以及图像编辑。该智能体通过一个结合了基于规则的逻辑与LLM及MLLM评估器判断的混合奖励机制,在强化学习(RL)框架下进行训练,从而 学会高效地选择和使用这些工具。LLM-I在包含四种不同模型主干的新颖多样化数据集上进行了训练,在四个基准测试中均展现出最先进的性能,大幅超越现有方法。此外,我们还提出了一种新颖的测试时扩展策略,进一步提升了模型表现。项目主页:https://github.com/ByteDance-BandAI/LLM-I。
12. AERIS: Argonne Earth Systems Model for Reliable and Skillful Predictions
作者: Väinö Hatanpää, Eugene Ku, Jason Stock, Murali Emani, Sam Foreman, Chunyong Jung, Sandeep Madireddy, Tung Nguyen, Varuni Sastry, Ray A. O. Sinurat, Sam Wheeler, Huihuo Zheng, Troy Arcomano, Venkatram Vishwanath, Rao Kotamarthi
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-16 | 👍 点赞数: 6
摘要:
论文标题:AERIS:用于可靠且高技巧预测的阿贡地球系统模型
中文摘要:
生成式机器学习为更深入理解复杂的地球系统动力学提供了新的机遇。近期基于扩散(diffusion-based)的方法在天气预报中相较于确定性方法能够缓解谱偏差问题,并改善集合预报的校准效 果,但迄今为止在高分辨率下稳定扩展仍面临挑战。本文提出了AERIS——一种具有13亿至800亿参数的像素级Swin扩散Transformer模型,旨在填补这一空白;同时提出SWiPe,这是一种通用性强的技术,通过将窗口并行与序列并行和流水线并行相结合,在不增加通信开销或全局批量大小的前提下,实现对基于窗口的Transformer模型的有效分片。在Aurora超算系统(10,080个节点)上,AERIS在0.25°分辨率的ERA5数据集上以1×1的patch尺寸实现了持续10.21 ExaFLOPS(混合精度)和峰值11.21 ExaFLOPS的计算性能,弱扩展效率达到95.5%,强扩展效率为81.6%。AERIS的表现优于欧洲中期天气预报中心的IFS ENS系统,并在长达90天的季节尺度预测中保持稳定,凸显了十亿级参数扩散模型在天气与气候预测中的巨大潜力。
13. SteeringControl: Holistic Evaluation of Alignment Steering in LLMs
作者: Vincent Siu, Nicholas Crispino, David Park, Nathan W. Henry, Zhun Wang, Yang Liu, Dawn Song, Chenguang Wang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-16 | 👍 点赞数: 5
摘要:
论文标题:SteeringControl:大语言模型对齐引导的综合性评估
中文摘要:
我们提出了SteeringControl,这是一个用于评估表示空间引导方法在核心对齐目标——偏见、有害内容生成和幻觉——上的表现,并考察其对谄媚(sycophancy)和常识道德判断等次级行为影响的基准评测框架。尽管以往的对齐研究通常以真实性或推理能力作为指标来揭示表示引导的副作用,但我们发现仍存在许多尚未被系统性理解的权衡取舍。为此,我们构建了一个包含与安全相关的主要及次要行为的数据集,围绕五种主流的引导方法,评估其引导效果以及行为间的耦合关系。为了实现这一目标,我们设计了一个模块化的引导框架,该框架基于若干独特组件,这些组件构成了许多现有方法的基本构建单元。我们在Qwen-2.5-7B和Llama-3.1-8B模型上的实验结果表明,强大的引导效果高度依赖于引导方法、模型和目标行为三者之间的具体组合,而三者之间不当的搭配可能导致严重的概念纠缠现象。我们的代码已公开发布:https://github.com/wang-research-lab/SteeringControl.git。
14. Image Tokenizer Needs Post-Training
作者: Kai Qiu, Xiang Li, Hao Chen, Jason Kuen, Xiaohao Xu, Jiuxiang Gu, Yinyi Luo, Bhiksha Raj, Zhe Lin, Marios Savvides
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-15 | 👍 点赞数: 5
摘要:
论文标题:图像分词器需要后训练
中文摘要:
近年来的图像生成模型通常在一个预构建的潜在空间中捕捉图像分布,并依赖于一个固定的图像分词器(image tokenizer)。然而,重建任务与生成任务之间存在显著的分布差异:当前的分词器仅专注于生成训练前的重建任务,而未考虑采样过程中产生的生成误差。本文针对离散潜在空间中的这一差异进行了全面分析,并据此提出了一种新颖的分词器训练方案,包含主训练(main-training)和后训练(post-training)两个阶段,分别聚焦于改进潜在空间的构建和解码过程。在主训练阶段,我们提出一种潜在空间扰动策略,用于模拟采样噪声,即生成推理过程中意外出现的令牌(tokens)。具体而言,我们设计了一种即插即用的分词器训练框架,显著提升了分词器的鲁棒性,从而提高了生成质量并加快了收敛速度;同时提出了一种新的分词器评估指标——pFID,该指标成功地将分词器性能与生成质量相关联。在后训练阶段,我们进一步针对一个已训练好的生成模型优化分词器的解码器,以缩小生成令牌与重建令牌之间的分布差异。使用sim400M生成器进行实验时,采用所提出的主训练方法训练的离散分词器取得了1.60的gFID,进一步加入后训练后gFID降至1.36。我们还进行了广泛的实验,验证了所提出的后训练策略在现成的离散与连续分词器、以及自回归和基于扩散的生成器上的普适有效性。
15. Quantum Variational Activation Functions Empower Kolmogorov-Arnold
Networks
作者: Jiun-Cheng Jiang, Morris Yu-Chao Huang, Tianlong Chen, Hsi-Sheng Goan
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-17 | 👍 点赞数: 3
摘要:
论文标题:量子变分激活函数赋能Kolmogorov-Arnold网络
中文摘要:
变分量子电路(Variational Quantum Circuits, VQCs)在量子机器学习中处于核心地位,而近期Kolmogorov-Arnold网络(KANs)的发展则凸显了可学习激活函数的强大能力。本文通过引入量子变分激活函数(Quantum Variational Activation Functions, QVAFs),将这两个方向统一起来。QVAFs通过一种称为“数据重上传激活网络”(DatA Re-Uploading ActivatioNs, DARUANs)的单量子比特数据重上传电路实现。我们证明,DARUAN在数据预处理中引入可训练权重后,其频率谱随数据重复次数呈指数级增长,从而在不损失表达能力的前提下,相比基于傅里叶的激活函数可实现参数规模的指数级缩减。将DARUAN嵌入KAN中,得到量子启发式KAN(Quantum-inspired KANs, QKANs),该模型在保持KAN可解释性的同时,提升了参数效率、表达能力和泛化性能。为进一步提升可扩展性、可行性与计算效率,我们提出了两种新技术:层扩展方法以及混合QKAN(Hybrid QKANs, HQKANs),后者可作为多层感知机(MLPs)的即插即用替代模块,应用于大规模前馈神经网络中。我们 提供了理论分析,并在函数回归、图像分类和自回归生成语言建模任务上开展了大量实验,验证了QKANs的高效性与可扩展性。DARUANs与QKANs为在含噪中等规模量子(NISQ)硬件及经典量子模拟器上推进量子机器学习提供了有前景的新路径。
16. WildSmoke: Ready-to-Use Dynamic 3D Smoke Assets from a Single Video in
the Wild
作者: Yuqiu Liu, Jialin Song, Manolis Savva, Wuyang Chen
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-14 | 👍 点赞数: 3
摘要:
论文标题:WildSmoke:从野外单段视频中生成即用型动态3D烟雾资源
中文摘要:
我们提出了一种从野外单段视频中提取并重建动态3D烟雾资源的处理流程,并进一步集成了交互式模拟功能,以支持烟雾的设计与编辑。近年来,三维视觉技术的发展显著提升了流体动力学的重建与渲染能力,实现了逼真且时间上一致的视角合成。然而,现有的流体重建方法大多依赖于精心控制的实验室环境,而对真实世界中“野外”拍摄的视频研究仍十分有限。本文指出了在真实场景视频中进行烟雾重建的三个关键挑战,并设计了针对性的技术方案,包括去除背景的烟雾提取、烟雾粒子与相机位姿的初始化,以及多视角视频的推断。我们的方法不仅在野外视频上的烟雾重建质量优于以往的重建与生成方法(在野外视频上平均PSNR提升+2.22),还能通过对所生成的烟雾资源进行流体动力学仿真,实现多样化且逼真的编辑效果。我们已将模型、数据及4D烟雾资源公开发布于 https://autumnyq.github.io/WildSmoke。
17. The Sum Leaks More Than Its Parts: Compositional Privacy Risks and
Mitigations in Multi-Agent Collaboration
作者: Vaidehi Patil, Elias Stengel-Eskin, Mohit Bansal
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-16 | 👍 点赞数: 1
摘要:
论文标题:整体之和泄露多于其各部分:多智能体协作中的组合性隐私风险与缓解方法
中文摘要:
随着大语言模型(LLMs)在多智能体系统中日益关键,新的隐私风险不断浮现,这些风险已超出传统的记忆化、直接推断或单轮交互评估的范畴。特别是,看似无害的响应在多次交互中被组合后,可能累积性地使攻击 者得以恢复敏感信息,我们将这一现象称为组合性隐私泄露。本文首次系统研究了多智能体LLM系统中此类组合性隐私泄露及其潜在缓解方法。首先,我们构建了一个框架,用以建模辅助知识与智能体间交互如何共同放大隐私风险——即使每个单独响应本身是良性的。为应对该问题,我们提出并评估了两种防御策略:(1)心智理论防御(Theory-of-Mind defense, ToM),即防御型智能体通过预判其输出可能被攻击者利用的方式,推断提问者的意图;(2)协同共识防御(Collaborative Consensus Defense, CoDef),即响应智能体与其同伴协作,基于共享的聚合状态进行投票,从而限制敏感信息的传播。至关重要的是,我们在评估中兼顾了暴露敏感信息的组合情形与产生良性推断的组合情形。实验结果量化了不同防御策略在隐私-效用权衡上的表现差异。我们发现,仅使用思维链(chain-of-thought)对泄露提供有限防护(约39%的敏感信息拦截率),而ToM防御显著提升了对敏感查询的阻断能力(最高达97%),但可能降低良性任务的成功率;CoDef则实现了最佳平衡,取得了最高的综合成效(Balanced Outcome,达79.8%),凸显了将显式推理与防御方协作相结合的优势。综上所述,本研究揭示了协作式LLM部署中一类新型风险,并为设计抵御组合性、上下文驱动隐私泄露的防护机制提供了可操作的洞见。
18. Synthesizing Behaviorally-Grounded Reasoning Chains: A Data-Generation
Framework for Personal Finance LLMs
作者: Akhil Theerthala
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-17
摘要:
论文标题:合成行为可解释的推理链:一种面向个人金融大语言模型的数据生成框架
中文摘要:
个性化的财务建议需要综合考虑用户的目标、约束条件、风险承受能力以及所处司法管辖区的具体规定。以往关于大语言模型(LLM)的研究主要集中在为投资者和理财规划师提供支持系统。与此同时,大量近期研究通过基于智能体(agentic)的流程来探讨更广泛的个人财务任务,如预算管理、债务管理、退休规划和遗产规划,但这类方法维护成本高昂,实际实现的财务回报不足预期的25%。在本研究中,我们提出了一种新颖且可复现的框架,将相关金融背景知识与行为金融学研究相结合,用于构建端到端财务顾问模型的监督训练数据。基于该框架,我们构建了一个包含19,000个样本的推理数据集,并在此数据集上对Qwen-3-8B模型进行了全面的微调。通过保留测试集评估和盲式LLM评审研究,我们证明:通过精心的数据筛选与行为因素整合,我们的8B参数模型在事实准确性、语言流畅性和个性化程度等指标上的表现,可媲美规模更大的基线模型(14–32B参数),而其成本仅为这些大模型的20%,降低了80%的开销。
19. Hybrid Quantum-Classical Model for Image Classification
作者: Muhammad Adnan Shahzad
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-14
摘要:
论文标题:用于图像分类的量子-经典混合模型
中文摘要:
本研究在三个基准数据集(MNIST、CIFAR100 和 STL10)上,对量子-经典混合神经网络与纯经典模型进行了系统性比较,以评估它们在性能、效率和鲁棒性方面的表现。混合模型将参数化量子电路与经典的深度学习架构相结合,而经典模型则采用传统的卷积神经网络(CNN)。针对每个数据集,实验均进行了50个训练周期,并从验证准确率、测试准确率、训练时间、计算资源消耗以及对抗鲁棒性(使用ε=0.1的扰动进行测试)等方面进行评估。
主要结果表明,混合模型在最终准确率上 consistently 优于经典模型,在验证集上的准确率分别达到:MNIST 数据集 99.38%,CIFAR100 数据集 41.69%,STL10 数据集 74.05%,显著高于经典模型对应的基准值 98.21%、32.25% 和 63.76%。值得注意的是,混合模型的优势随数据集复杂度增加而增强,在 CIFAR100 上提升了 +9.44%,在 STL10 上提升了 +10.29%,增益最为显著。此外,混合模型的训练速度比经典模型快 5 至 12 倍(例如,在 MNIST 上每轮训练耗时 21.23 秒,而经典模型为 108.44 秒),且参数量减少 6%–32%,同时在未见测试数据上展现出更优的泛化能力。
对抗鲁棒性测试显示,混合模型在较简单的数据集上具有更强的抗攻击能力(例如,在 MNIST 上混合模型的鲁棒准确率为 45.27%,而经典模型仅为 10.80%);但在 CIFAR100 等复杂数据集上,两者均表现出相似的脆弱性(鲁棒准确率均约为 1%)。资源效率分析表明,混合模型内存占用更低(4–5GB 对比经典的 5–6GB),平均 CPU 使用率也显著下降(9.5% 对比 23.2%)。
上述结果表明,量子-经典混合架构在准确性、训练效率和参数可扩展性方面具有显著优势,尤其适用于复杂的视觉任务。