每日论文 - 2025年08月27日

论文总数: 27

1. VibeVoice Technical Report

作者: Zhiliang Peng, Jianwei Yu, Wenhui Wang, Yaoyao Chang, Yutao Sun, Li Dong, Yi Zhu, Weijiang Xu, Hangbo Bao, Zehua Wang, Shaohan Huang, Yan Xia, Furu Wei

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-26 | 👍 点赞数: 90

摘要:

本文介绍了VibeVoice，这是一种新颖的模型，旨在通过使用next-token diffusion（一种通过扩散过程自回归生成潜在向量来建模连续数据的统一方法），合成包含多个说话人的长段语音。为此，我们引入了一种新的连续语音分词器（tokenizer），与流行的Encodec模型相比，其在保持性能相当的情况下将数据压缩率提高了80倍。该分词器在有效保持音频保真度的同时，显著提升了处理长序列的计算效率。因此，VibeVoice可以在最长90分钟（上下文窗口长度为64K）的对话中支持最多4个说话人，生成具有真实对话“氛围（vibe）”的语音，并超越现有的开源与专有对话模型。

2. TreePO: Bridging the Gap of Policy Optimization and Efficacy and

Inference Efficiency with Heuristic Tree-based Modeling

作者: Yizhi Li, Qingshui Gu, Zhoufutu Wen, Ziniu Li, Tianshun Xing, Shuyue Guo, Tianyu Zheng, Xin Zhou, Xingwei Qu, Wangchunshu Zhou, Zheng Zhang, Wei Shen, Qian Liu, Chenghua Lin, Jian Yang, Ge Zhang, Wenhao Huang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-24 | 👍 点赞数: 70

摘要:

摘要：
通过强化学习对齐大语言模型的最新进展在解决复杂推理问题方面取得了显著成效，但往往伴随着高昂的策略 rollout 成本以及对多样化推理路径的探索受限。本文提出了 TreePO，一种自引导 rollout 算法，将序列生成视为树状搜索过程。TreePO 由动态树采样策略和固定长度分段解码构成，利用局部不确定性生成额外分支。通过在公共前缀上分摊计算量并提前剪枝低价值路径，TreePO 实质上降低了每次更新的计算负担，同时保持或增强了探索的多样性。主要贡献包括：(1) 一种分段采样算法，通过连续分段缓解 KV 缓存压力，并结合早停机制生成新分支；(2) 一种基于树结构的分段级优势估计方法，同时考虑全局和局部邻近策略优化；(3) 对概率和质量驱动的动态发散与回退策略有效性的分析。我们在一系列推理基准上验证了 TreePO 的性能提升，并在采样设计中实现了从 22% 到 43% 的 GPU 小时效率提升，同时对于现有模型，在轨迹级别和 token 级别的采样计算上分别实现了最高 40% 和 35% 的减少。TreePO 在提供推理效率“免费午餐”的同时，为基于更少样本和更少计算资源的强化学习后训练规模化提供了可行路径。项目主页位于 https://m-a-p.ai/TreePO。

3. CMPhysBench: A Benchmark for Evaluating Large Language Models in

Condensed Matter Physics

作者: Weida Wang, Dongchen Huang, Jiatong Li, Tengchao Yang, Ziyang Zheng, Di Zhang, Dong Han, Benteng Chen, Binzhao Luo, Zhiyu Liu, Kunling Liu, Zhiyuan Gao, Shiqi Geng, Wei Ma, Jiaming Su, Xin Li, Shuchen Pu, Yuhan Shui, Qianjia Cheng, Zhihao Dou, Dongfei Cui, Changyong He, Jin Zeng, Zeke Xie, Mao Su, Dongzhan Zhou, Yuqiang Li, Wanli Ouyang, Yunqi Cai, Xi Dai, Shufei Zhang, Lei Bai, Jinguang Cheng, Zhong Fang, Hongming Weng

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-25 | 👍 点赞数: 45

摘要:

我们推出了CMPhysBench，这是一个用于评估大语言模型（LLMs）在凝聚态物理领域表现的新基准。CMPhysBench 包含超过520道精心筛选的研究生水平问题，覆盖凝聚态物理的代表性子领域和基础理论框架，如磁性、超导性、强关联体系等。为深入理解问题求解过程，我们专注于计算类问题，要求LLMs独立生成完整的解题过程。同时，借助基于表达式的树状结构表示，我们引入了可扩展表达式编辑距离（Scalable Expression Edit Distance, SEED）评分，提供细粒度（非二元）的部分得分，从而更精确地评估预测结果与真实答案之间的相似性。实验结果显示，即使是表现最好的模型Grok-4，在CMPhysBench上的平均SEED得分仅为36，准确率仅为28%，突显了当前LLMs在这一实用且前沿的物理领域与传统物理相比仍存在显著的能力差距。代码和数据集已公开在https://github.com/CMPhysBench/CMPhysBench。

4. VoxHammer: Training-Free Precise and Coherent 3D Editing in Native 3D

Space

作者: Lin Li, Zehuan Huang, Haoran Feng, Gengxiong Zhuang, Rui Chen, Chunchao Guo, Lu Sheng

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-26 | 👍 点赞数: 35

摘要:

VoxHammer: 原生3D空间中无需训练的精确且连贯的3D编辑方法

指定区域的3D局部编辑对于游戏产业和机器人交互至关重要。近期方法通常通过编辑渲染后的多视角图像再重建3D模型，但难以精确保留未编辑区域并保持整体一致性。受结构化3D生成模型的启发，我们提出了一种全新的无需训练的方法VoxHammer，可在3D潜在空间中实现精确且连贯的编辑。对于给定的3D模型，VoxHammer首先预测其反演轨迹，并在每个时间步获取其反演潜在表示以及对应的键值(token)。随后在去噪与编辑阶段，我们以相应反演潜在表示和缓存的键值(token)替换保留区域的去噪特征。通过保留这些上下文特征，该方法确保了保留区域的一致性重建以及编辑部分的连贯融合。为了评估保留区域的一致性，我们构建了Edit3D-Bench，这是一个由数百个样本组成的人工标注数据集，每个样本均包含精细标注的3D编辑区域。实验表明，VoxHammer在保留区域的3D一致性及整体编辑质量方面显著优于现有方法。我们的方法有望合成高质量的编辑配对数据，从而为上下文内3D生成奠定数据基础。项目页面详见https://huanngzh.github.io/VoxHammer-Page/。

5. OmniHuman-1.5: Instilling an Active Mind in Avatars via Cognitive

Simulation

作者: Jianwen Jiang, Weihong Zeng, Zerong Zheng, Jiaqi Yang, Chao Liang, Wang Liao, Han Liang, Yuan Zhang, Mingyuan Gao

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-26 | 👍 点赞数: 35

摘要:

现有视频虚拟人模型虽能生成流畅的人类动画，但往往难以超越单纯的物理相似性以捕捉角色的真实本质。其动作通常仅与音频节奏等低级线索同步，缺乏对情感、意图或上下文的深层语义理解。为弥合这一差距，我们提出了一种框架，旨在生成不仅物理上合理，而且语义连贯且富有表现力的角色动画。我们的模型OmniHuman-1.5基于两项关键技术贡献。首先，我们利用多模态大语言模型合成结构化文本条件表示，以提供高层语义指导。该指导使我们的动作生成器超越了简单的节奏同步，能够生成在上下文和情感上具有共鸣的动作。其次，为确保这些多模态输入的有效融合并缓解模态间冲突，我们引入了一种具有新颖伪末帧设计的专用多模态DiT架构。这些组件的协同作用使我们的模型能够准确解读音频、图像和文本的联合语义，从而生成与角色、场景及语言内容深度一致的动作。大量实验表明，我们的模型在包括唇形同步精度、视频质量、动作自然度和与文本提示的语义一致性在内的多项指标上均达到了领先性能。此外，我们的方法还展现出对复杂场景（如多人和非人类主体）的显著可扩展性。

6. Pixie: Fast and Generalizable Supervised Learning of 3D Physics from

Pixels

作者: Long Le, Ryan Lucas, Chen Wang, Chuhao Chen, Dinesh Jayaraman, Eric Eaton, Lingjie Liu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-20 | 👍 点赞数: 31

摘要:

Pixie：从像素中快速且可泛化的3D物理监督学习

从视觉信息中推断3D场景的物理属性是创建交互式和真实感虚拟世界的关键任务，但同时也极具挑战性。尽管人类能够直观地理解诸如弹性或刚度等材料特性，但现有方法通常依赖于缓慢的逐场景优化过程，从而限制了其泛化能力和应用范围。为了解决这一问题，我们提出了PIXIE，一种新颖的方法，通过监督损失函数，仅使用3D视觉特征，训练一个可泛化的神经网络以跨场景预测物理属性。一旦训练完成，我们的前馈网络可以快速推断出合理的材料场，结合类似高斯点绘（Gaussian Splatting）这样的静态场景表示学习方法，能够在外部力作用下实现真实感物理模拟。为推动本领域研究，我们还构建了PIXIEVERSE数据集，这是目前规模最大的配对3D资产与物理材料标注数据集之一。大量评估表明，PIXIE在性能上比测试阶段优化方法高出约1.46-4.39倍，并且在速度上快出多个数量级。通过利用CLIP等预训练视觉特征，我们的方法即使仅在合成数据上训练，也能实现对真实世界场景的零样本泛化。https://pixie-3d.github.io/

7. Spacer: Towards Engineered Scientific Inspiration

作者: Minhyeong Lee, Suyoung Hwang, Seunghyun Moon, Geonho Nah, Donghyun Koh, Youngjun Cho, Johyun Park, Hojin Yoo, Jiho Park, Haneul Choi, Sungbin Moon, Taehoon Hwang, Seungwon Kim, Jaeyeong Kim, Seongjun Kim, Juneau Jung

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-25 | 👍 点赞数: 28

摘要:

摘要：
近期大型语言模型（LLMs）的发展使自动化科学研究成为通往人工超级智能的下一关键领域。然而，当前系统受限于任务范围狭窄，或受限于LLMs有限的创造力。我们提出Spacer，一种无需外部干预即可生成创造性且事实基础扎实的科学发现系统。Spacer通过“刻意去情境化”方法实现这一目标，该方法将信息拆解为原子单元——关键词，并通过它们之间未被探索的关联激发创造力。Spacer包括两个部分：(i) Nuri，一种灵感引擎，用于构建关键词集合；(ii) 生成管道（Manifesting Pipeline），用于将这些关键词集合提炼为完整的科学陈述。Nuri从基于180,000篇生物学领域学术出版物构建的关键词图中提取新颖且具有高潜力的关键词集。生成管道则在关键词之间寻找关联，分析其逻辑结构，验证其合理性，并最终起草原创科学概念。根据我们的实验，Nuri的评估指标以AUROC得分为0.737的准确率对高影响力出版物进行分类。我们的生成管道还成功地仅从关键词集重构了最新顶级期刊文章的核心概念。基于LLM的评分系统估计，该重构在超过85%的案例中是合理的。最后，我们的嵌入空间分析表明，与当前最先进的LLMs相比，Spacer的输出与领先出版物更为相似。

8. UltraMemV2: Memory Networks Scaling to 120B Parameters with Superior

Long-Context Learning

作者: Zihao Huang, Yu Bao, Qiyang Min, Siyan Chen, Ran Guo, Hongzhi Huang, Defa Zhu, Yutao Zeng, Banggu Wu, Xun Zhou, Siyuan Qiao

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-26 | 👍 点赞数: 26

摘要:

UltraMemV2: 具有卓越长上下文学习能力的1200亿参数内存网络

尽管专家混合（MoE）模型通过仅激活部分参数实现了显著的效率提升，但其在推理过程中存在较高的内存访问成本。内存层架构通过极少的内存访问提供了有吸引力的替代方案，但此前的尝试（如UltraMem）仅能匹敌2专家MoE模型的性能，与最先进的8专家配置仍有显著差距。我们提出了UltraMemV2，一种重新设计的内存层架构，成功弥补了这一性能差距。我们的方法引入了五项关键改进：将内存层集成到每个Transformer块中、通过单一线性投影简化值扩展、采用基于FFN的值处理机制（源自PEER）、实现基于原理的参数初始化，以及重新平衡内存与FFN的计算比例。通过广泛的评估，我们证明UltraMemV2在相同计算资源和参数规模下实现了与8专家MoE模型相当的性能，但内存访问显著降低。值得注意的是，UltraMemV2在内存密集型任务上表现出色，在长上下文记忆任务上提升1.6个百分点，在多轮记忆任务上提升6.2个百分点，在上下文学习任务上提升7.9个百分点。我们在高达1200亿总参数中激活最多25亿参数的模型规模上验证了我们的方法，并发现激活密度对性能的影响大于总稀疏参数数量。我们的工作使内存层架构在性能上达到了与当前最先进的MoE模型相当的水平，为高效稀疏计算提供了一个极具竞争力的替代方案。

9. Autoregressive Universal Video Segmentation Model

作者: Miran Heo, Sukjun Hwang, Min-Hung Chen, Yu-Chiang Frank Wang, Albert Gu, Seon Joo Kim, Ryo Hachiuma

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-26 | 👍 点赞数: 21

摘要:

摘要：
近期的视频基础模型（如SAM2）通过将掩码视为通用基元，在提示视频分割任务中表现出色。然而，许多实际场景需要无提示分割，即在没有外部线索的情况下检测并跟踪视频中的所有物体，这导致当前的方法分散在不同的任务专用模型和流程中。我们将视频流分割重新定义为序列掩码预测问题，类似于语言建模，并由此提出自回归通用分割模型（Autoregressive Universal Segmentation Model，AUSM），该模型采用统一架构同时支持提示与无提示视频分割。AUSM基于近期的状态空间模型构建，维护一个固定大小的空间状态，可扩展至任意长度的视频流。此外，AUSM的所有组件均支持跨帧并行训练，相较于迭代训练方式实现了显著的速度提升。在多个标准基准测试（DAVIS17、YouTube-VOS 2018 & 2019、MOSE、YouTube-VIS 2019 & 2021 以及 OVIS）中，AUSM均优于以往的通用视频流分割方法，并在16帧序列上的训练速度最高提升了2.5倍。

10. CineScale: Free Lunch in High-Resolution Cinematic Visual Generation

作者: Haonan Qiu, Ning Yu, Ziqi Huang, Paul Debevec, Ziwei Liu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-21 | 👍 点赞数: 18

摘要:

视觉扩散模型取得了显著进展，但由于缺乏高分辨率数据和受限的计算资源，它们通常仅在有限分辨率下进行训练，这限制了其在更高分辨率下生成高保真图像或视频的能力。近期研究探索了无需调优的策略，以挖掘预训练模型在更高分辨率视觉生成方面的潜力。然而，这些方法仍容易生成具有重复模式的低质量视觉内容。关键障碍在于当模型生成超过其训练分辨率的视觉内容时，高频信息不可避免地增加，从而导致由累积误差引发的重复模式。本文提出了CineScale，一种新颖的推理范式，以实现更高分辨率的视觉生成。为应对两种视频生成架构所带来的不同问题，我们分别为其设计了专门的变体。与现有仅限于高分辨率T2I（文本到图像）和T2V（文本到视频）生成的基线方法不同，CineScale扩展了应用范围，支持基于当前最先进的开源视频生成框架实现高分辨率的I2V（图像到视频）和V2V（视频到视频）合成。大量实验验证了我们的范式在提升图像和视频模型高分辨率生成能力方面的优越性。特别值得一提的是，我们的方法无需任何微调即可实现8K图像生成，并通过仅需少量LoRA微调即可实现4K视频生成。生成的视频样例请访问我们的网站：https://eyeline-labs.github.io/CineScale/。

11. ThinkDial: An Open Recipe for Controlling Reasoning Effort in Large

Language Models

作者: Qianyu He, Siyu Yuan, Xuefeng Li, Mingxuan Wang, Jiangjie Chen

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-26 | 👍 点赞数: 13

摘要:

ThinkDial: 一种用于控制大语言模型推理代价的开源方案

具有思维链推理能力的大语言模型（LLMs）已经展现出卓越的问题求解能力，但在实际部署中控制其计算代价仍然是一个重大挑战。近期一些专有系统（如OpenAI的gpt-oss系列）引入了离散操作模式以实现直观的推理控制，但开源社区在实现此类功能方面进展有限。本文提出了ThinkDial，这是首个基于开源方案实现端到端流程的框架，成功实现了类似gpt-oss风格的可控推理功能，通过离散操作模式进行控制。我们的系统支持在三种不同的推理模式之间无缝切换：High模式（完整推理能力）、Medium模式（减少50%的token数量且性能下降<10%）以及Low模式（减少75%的token数量且性能下降<15%）。我们通过一种集成预算模式控制的端到端训练范式实现了这一目标：预算模式监督微调（budget-mode supervised fine-tuning）将可控推理能力直接嵌入学习过程，以及结合自适应奖励塑造的两阶段预算感知强化学习（two-phase budget-aware reinforcement learning）。大量实验表明，ThinkDial能够在保持性能阈值的前提下，实现目标压缩与性能之间的权衡，并显著减少响应长度。此外，该框架在分布外任务上也表现出较强的泛化能力。

12. Wan-S2V: Audio-Driven Cinematic Video Generation

作者: Xin Gao, Li Hu, Siqi Hu, Mingyang Huang, Chaonan Ji, Dechao Meng, Jinwei Qi, Penchong Qiao, Zhen Shen, Yafei Song, Ke Sun, Linrui Tian, Guangyuan Wang, Qi Wang, Zhongjian Wang, Jiayu Xiao, Sheng Xu, Bang Zhang, Peng Zhang, Xindi Zhang, Zhe Zhang, Jingren Zhou, Lian Zhuo

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-26 | 👍 点赞数: 13

摘要:

当前最先进的（SOTA）音频驱动角色动画方法在主要涉及语音和歌唱的场景中表现出良好的性能。然而，在更为复杂的影视制作中，这些方法往往难以满足需求，例如细腻的角色互动、逼真的身体动作以及动态的摄像机操作等复杂元素。为应对实现影视级角色动画这一长期挑战，我们在Wan的基础上提出了一种音频驱动模型，称为Wan-S2V。与现有方法相比，我们的模型在影视场景中实现了显著增强的表现力和保真度。我们进行了广泛的实验，将本方法与Hunyuan-Avatar和Omnihuman等前沿模型进行基准测试。实验结果一致表明，我们的方法显著优于现有方案。此外，我们还通过长视频生成和精确的视频唇形同步编辑等应用场景，探索了本方法的多功能性。

13. FastMesh:Efficient Artistic Mesh Generation via Component Decoupling

作者: Jeonghwan Kim, Yushi Lan, Armando Fortes, Yongwei Chen, Xingang Pan

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-26 | 👍 点赞数: 12

摘要:

FastMesh: 通过组件解耦实现高效的艺术网格生成

近期的网格生成方法通常将三角网格分词为一系列标记，并训练自回归模型按顺序生成这些标记。尽管取得了显著进展，但这种标记序列不可避免地需要多次重复使用顶点以完整表示流形网格，因为每个顶点被多个面共享。这种冗余导致了过长的标记序列和低效的生成过程。本文中，我们提出了一种高效的框架，通过分别处理顶点和面来生成艺术网格，显著减少了冗余。我们仅对顶点生成使用自回归模型，将标记数量减少到现有最紧凑分词器所需数量的大约23%。接下来，我们利用一个双向Transformer通过捕捉顶点间关系并构建定义网格面的邻接矩阵，在单一步骤中完成网格生成。为进一步提高生成质量，我们引入了一个保真度增强模块，以将顶点位置优化为更自然的排列，并提出了一种后处理框架以去除不理想的边连接。实验结果表明，与最先进的方法相比，我们的方法在生成速度上提高了8倍以上，同时生成了更高质量的网格。

14. DrugReasoner: Interpretable Drug Approval Prediction with a

Reasoning-augmented Language Model

作者: Mohammadreza Ghaffarzadeh-Esfahani, Ali Motahharynia, Nahid Yousefian, Navid Mazrouei, Jafar Ghaisari, Yousof Gheisari

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-26 | 👍 点赞数: 12

摘要:

DrugReasoner：基于推理增强型语言模型的可解释药物批准预测

药物发现是一个复杂且资源密集的过程，使得在早期预测药物批准结果对于优化研究投资至关重要。尽管传统的机器学习和深度学习方法在药物批准预测中展现出一定的潜力，但其有限的可解释性限制了其影响力。本文中，我们提出了DrugReasoner，这是一种基于推理的大型语言模型（LLM），构建于LLaMA架构之上，并通过组相对策略优化（GRPO）进行微调，用于预测小分子药物获批的可能性。DrugReasoner将分子描述符与对结构相似的已获批和未获批化合物的对比推理相结合，生成预测结果的同时输出逐步推理过程和置信度评分。DrugReasoner在验证集上取得了0.732的AUC值和0.729的F1分数，在测试集上分别达到0.725和0.718，表现出稳健的性能。这些结果优于传统的基线模型，包括逻辑回归、支持向量机和k近邻算法，并与XGBoost模型具有相当的竞争力。在外部独立数据集上，DrugReasoner的表现优于基线模型和近期开发的ChemAP模型，AUC值达到0.728，F1分数为0.774，同时保持了高精度和均衡的灵敏度，显示出在实际应用场景中的稳健性。这些研究结果表明，DrugReasoner不仅具有出色的预测准确性，还通过其推理输出增强了模型的透明度，从而解决了人工智能辅助药物发现中的一个关键瓶颈。本研究突出了推理增强型LLM在制药决策中作为可解释且有效工具的潜力。

15. ReportBench: Evaluating Deep Research Agents via Academic Survey Tasks

作者: Minghao Li, Ying Zeng, Zhihao Cheng, Cong Ma, Kai Jia

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-14 | 👍 点赞数: 11

摘要:

摘要：
Deep Research智能体的出现大幅缩短了完成广泛研究任务所需的时间。然而，这些任务本质上要求严格的事实准确性和全面性，在广泛采用之前需要进行彻底评估。本文提出了ReportBench，一个系统性基准，旨在评估由大语言模型（LLMs）生成的研究报告的内容质量。我们的评估聚焦于两个关键维度：(1) 引用文献的质量与相关性，以及 (2) 报告中陈述语句的忠实性与真实性。ReportBench利用arXiv上已发表的高质量综述论文作为黄金标准参考，通过逆向提示工程从中推导出领域特定的提示，并构建了一个全面的评估语料库。此外，我们在ReportBench中开发了一个基于智能体的自动化框架，通过提取引用文献和陈述语句、检查引用内容相对于原始来源的忠实性，以及利用网络资源验证未引用的陈述，系统性地分析生成的报告。实证评估表明，与结合搜索或浏览工具的独立LLMs相比，如OpenAI和Google开发的商用Deep Research智能体能够持续生成更全面且更可靠的报告。然而，在研究覆盖的广度与深度以及事实一致性方面，仍有较大的改进空间。完整的代码和数据将发布于以下链接：https://github.com/ByteDance-BandAI/ReportBench

16. Optimal Sparsity of Mixture-of-Experts Language Models for Reasoning

Tasks

作者: Taishi Nakamura, Satoki Ishikawa, Masaki Kawamura, Takumi Okamoto, Daisuke Nohara, Jun Suzuki, Rio Yokota

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-26 | 👍 点赞数: 7

摘要:

摘要：
经验扩展定律推动了大语言模型（Large Language Models, LLMs）的发展，然而每当模型架构或数据流程发生变化时，其系数也随之改变。Mixture-of-Experts（MoE）模型如今已成为先进系统中的标准配置，它引入了一种当前稠密模型前沿研究所忽视的稀疏性维度。我们研究了MoE稀疏性如何影响两种不同的能力范式：记忆与推理。我们在固定计算预算的前提下，训练了一系列MoE Transformer模型，系统地改变总参数量、激活参数量以及top-k路由策略。对于每个模型，我们记录了预训练损失、下游任务损失以及任务准确率，从而将训练-测试泛化差距与损失-准确率差距区分开来。记忆类基准的表现随着总参数量的增加而单调提升，并与训练损失保持一致。相比之下，尽管总参数量和训练损失持续增加，推理性能却趋于饱和，甚至可能出现倒退。在激活参数量保持不变的情况下，仅改变top-k路由策略对性能影响甚微，而学习率和初始化等传统超参数对泛化差距的调节方向与稀疏性一致。后训练强化学习（GRPO）或额外的测试时计算均无法弥补过于稀疏模型的推理缺陷。我们的模型检查点、代码和日志已开源，详见https://github.com/rioyokotalab/optimal-sparsity。

17. ObjFiller-3D: Consistent Multi-view 3D Inpainting via Video Diffusion

Models

作者: Haitang Feng, Jie Liu, Jie Tang, Gangshan Wu, Beiqi Chen, Jianhuang Lai, Guangcong Wang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-25 | 👍 点赞数: 6

摘要:

3D修复通常依赖于多视角2D图像修复，在不同修复视角之间存在的固有不一致性可能导致纹理模糊、空间不连续以及分散性的视觉伪影。这些不一致性在追求高精度和高真实感的3D物体补全任务中构成了重大挑战，尤其是在对高保真度和结构一致性有严格要求的应用中。为克服这些局限性，我们提出ObjFiller-3D，一种用于高质量且一致的3D物体补全与编辑的新型方法。不同于采用传统2D图像修复模型的方式，我们的方法利用精选的前沿视频编辑模型来填充3D物体的掩码区域。我们分析了3D数据与视频之间的表示差异，并提出将视频修复模型适配于3D场景修复任务的策略。此外，我们引入了一种基于参考的3D修复方法，以进一步提升重建质量。在多个数据集上的实验表明，与现有方法相比，ObjFiller-3D能够生成更忠实且细节更丰富的重建结果（PSNR为26.6，优于NeRFiller的15.9；LPIPS为0.19，优于Instant3Dit的0.25）。此外，该方法在实际的3D编辑应用中展现出良好的部署潜力。项目页面：https://objfiller3d.github.io/ 代码：https://github.com/objfiller3d/ObjFiller-3D 。

18. Select to Know: An Internal-External Knowledge Self-Selection Framework

for Domain-Specific Question Answering

作者: Bolei He, Xinran He, Run Shao, Shanfu Shu, Xianwei Xue, Mingquan Cheng, Haifeng Li, Zhenhua Ling

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-21 | 👍 点赞数: 5

摘要:

摘要：大语言模型（Large Language Models, LLMs）在通用问答任务中表现良好，但在领域特定场景中常常表现不佳。检索增强生成（Retrieval-Augmented Generation, RAG）引入了外部知识，但由于检索结果中的噪声，容易产生幻觉并导致延迟。持续预训练能够将领域知识内化，但成本高昂且缺乏跨领域的灵活性。我们将这一挑战归因于领域知识的长尾分布，导致部分但有用的知识未被充分利用。我们进一步认为，知识获取应是渐进式的，模仿人类的学习过程：首先理解概念，然后将其应用于复杂推理。为解决这一问题，我们提出了Select2Know（S2K），一种通过内部-外部知识自选择策略和选择性监督微调来内化领域知识的高效框架。此外，我们还引入了一个结构化推理数据生成流程，并集成GRPO以增强推理能力。在医疗、法律和金融问答基准上的实验表明，S2K在显著降低开销的前提下，持续优于现有方法，并与领域预训练LLMs表现相当。

19. MovieCORE: COgnitive REasoning in Movies

作者: Gueter Josmy Faure, Min-Hung Chen, Jia-Fong Yeh, Ying Cheng, Hung-Ting Su, Yung-Hao Tang, Shang-Hong Lai, Winston H. Hsu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-26 | 👍 点赞数: 4

摘要:

本文介绍了MovieCORE，这是一种新颖的视频问答（VQA）数据集，旨在深入探究电影内容的认知理解。与现有主要关注表层理解的数据集不同，MovieCORE强调涉及系统2思维的问题，同时保持与视频材料的具体关联。我们提出了一种创新的代理头脑风暴方法，利用多个大语言模型（LLMs）作为思维代理来生成和优化高质量的问题-答案对。为了评估数据集的质量，我们开发了一组认知测试，用于评估问题的深度、引发思考的潜力以及句法复杂性。此外，我们提出了一种全面的评估方案，用于评估VQA模型在更深层次认知任务上的表现。为了解决现有视频-语言模型（VLMs）的局限性，我们引入了一个代理增强模块——代理选择增强（Agentic Choice Enhancement, ACE），该模块在训练后可将模型的推理能力提高多达25%。我们的研究推动了人工智能系统对电影内容的理解，并在当前VQA模型面对更具挑战性和细微差别的电影相关问题时，提供了关于其能力与局限性的宝贵见解。我们的项目页面、数据集和代码可在以下网址获取：https://joslefaure.github.io/assets/html/moviecore.html。

20. Demystifying Scientific Problem-Solving in LLMs by Probing Knowledge and

Reasoning

作者: Alan Li, Yixin Liu, Arpan Sarkar, Doug Downey, Arman Cohan

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-26 | 👍 点赞数: 3

摘要:

科学问题求解对大语言模型（LLMs）提出了独特的挑战，既需要深厚的领域知识，又需要通过复杂推理应用这些知识的能力。尽管自动化科学推理工具在辅助人类科学家方面具有巨大潜力，但目前尚无广泛采用的综合性基准来评估科学推理能力，也很少有方法能系统地区分知识与推理在这些任务中的不同作用。为填补这些空白，我们提出了SciReas，这是一个涵盖多种现有科学推理任务基准的综合性评估套件，以及SciReas-Pro，一个需要更复杂推理能力的精选子集。通过整体评估，我们揭示了仅依赖单一基准无法发现的关于科学推理性能的深入见解。随后，我们提出了KRUX，一个用于研究推理与知识在科学任务中各自作用的探测框架。结合这两部分，我们进行了深入分析，得出了若干关键发现：(1) 从模型参数中检索任务相关知识是LLMs在科学推理中面临的关键瓶颈；(2) 在推理增强的基础上引入上下文中的外部知识，推理模型始终受益；(3) 增强语言化推理能够提升LLMs挖掘任务相关知识的能力。最后，我们进行了轻量级分析，将我们以科学为中心的数据构成与当前的长链思维链微调（long CoT SFT）研究进行对比，并发布了SciLit01，一个性能优异的8B参数科学推理基线模型。

21. Training Language Model Agents to Find Vulnerabilities with CTF-Dojo

作者: Terry Yue Zhuo, Dingmin Wang, Hantian Ding, Varun Kumar, Zijian Wang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-25 | 👍 点赞数: 3

摘要:

大型语言模型（LLMs）在可执行运行时环境中训练时展现出卓越的能力，尤其是在通过验证反馈循环完成软件工程任务方面表现突出。然而，可扩展且通用的基于执行的环境仍然稀缺，限制了更具能力的机器学习代理的训练进展。我们提出CTF-Dojo，这是首个专为训练具有可验证反馈的LLMs而设计的大规模可执行运行时环境，包含658个功能完整的Docker容器化Capture-The-Flag（CTF）风格挑战，确保完全可复现性。为实现无需人工干预的快速扩展，我们开发了CTF-Forge自动化流水线，可在数分钟内将公开可用的资源转化为即用型执行环境，省去了传统上所需的数周专家配置工作。我们仅使用CTF-Dojo中的486条高质量、经过执行验证的轨迹训练基于LLM的代理，在三个具有竞争力的基准测试（InterCode-CTF、NYU CTF Bench和Cybench）中相较强基线模型取得了最高11.6%的绝对提升。我们表现最佳的32B模型在Pass@1指标上达到31.9%，建立了新的开源权重模型的最先进水平，与DeepSeek-V3-0324和Gemini-2.5-Flash等前沿模型相当。通过将CTF风格任务构建成可执行代理学习的基准，CTF-Dojo表明，基于执行的训练信号不仅有效，而且在不依赖昂贵专有系统的情况下推动高性能机器学习代理发展中具有关键作用。

22. QueryBandits for Hallucination Mitigation: Exploiting Semantic Features

for No-Regret Rewriting

作者: Nicole Cho, William Watson, Alec Koppel, Sumitra Ganesh, Manuela Veloso

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-22 | 👍 点赞数: 2

摘要:

论文标题：QueryBandits 用于缓解幻觉：利用语义特征实现无遗憾重写

英文摘要的中文翻译：

大规模语言模型（Large Language Models, LLMs）的高级推理能力导致幻觉现象更加普遍；然而，目前大多数缓解工作集中在事后过滤，而非针对引发幻觉的查询本身进行调整。我们提出了QueryBandits，这是一种多臂老虎机框架，设计重写策略以最大化一个奖励模型，该模型基于输入查询的17个语言特征的敏感性来封装幻觉倾向，从而主动引导LLMs避免生成幻觉。在13个多样化的问答基准测试中，每个数据集包含1050个经过词汇扰动的查询，我们最优的上下文QueryBandit策略（Thompson Sampling）相对于无重写基线取得了87.5%的胜率，并且分别优于零样本静态提示（“改写”或“扩展”）42.6%和60.3%。因此，我们通过查询重写形式的干预，实证验证了QueryBandits在缓解幻觉方面的有效性。有趣的是，当前查询重写文献中相当一部分静态提示策略的累积遗憾高于无重写基线，表明静态重写可能加剧幻觉现象。此外，我们发现收敛后的各臂回归特征权重向量表明，并不存在适用于所有查询的单一最优重写策略。在此背景下，通过QueryBandits利用语义特征进行引导重写，可以通过前向机制显著改变输出行为，而无需重新训练或基于梯度的调整。

23. Servant, Stalker, Predator: How An Honest, Helpful, And Harmless (3H)

Agent Unlocks Adversarial Skills

作者: David Noever

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-27 | 👍 点赞数: 1

摘要:

本文识别并分析了基于模型上下文协议（Model Context Protocol, MCP）的智能体系统中的一类新型漏洞。攻击链描述并演示了如何将多个原本良性且经过授权的独立任务编排在一起，从而产生有害的突发行为。通过使用MITRE ATLAS框架进行系统性分析，我们展示了在访问多个服务（包括浏览器自动化、财务分析、位置跟踪和代码部署）的95个智能体测试中，如何将合法操作串联成复杂的攻击序列，这些攻击超出了任何单一服务的安全边界。这些红队演练调查了当前MCP架构是否缺乏必要的跨域安全措施，以检测或阻止大量组合式攻击。我们提供了实证证据，展示了通过服务编排实现的特定攻击链，包括数据渗出、财务操控和基础设施破坏。研究结果表明，当智能体能够在多个领域协调操作时，服务隔离这一基本安全假设失效，攻击面呈指数级增长，每增加一项能力都会扩大潜在威胁。本研究提供了一个基础实验框架，评估重点不在于智能体是否能够完成MCP基准任务，而在于它们在完成任务过程中若跨多个服务进行优化操作，从而违反人类预期和安全约束时所可能引发的后果。我们基于现有的MCP基准测试套件，提出了三个具体的实验方向。

24. Unraveling the cognitive patterns of Large Language Models through

module communities

作者: Kushal Raj Bhandari, Pin-Yu Chen, Jianxi Gao

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-25 | 👍 点赞数: 1

摘要:

大型语言模型（LLMs）通过在科学、工程和社会领域的广泛应用，包括科学发现、医学诊断和聊天机器人等，极大地改变了我们的世界。尽管LLMs无处不在且功能强大，其底层机制却隐藏在数十亿参数和复杂结构之中，使得其内部架构和认知过程难以理解。为填补这一空白，我们借鉴生物学中理解新兴认知的方法，开发了一个基于网络的框架，将认知技能、LLMs架构和数据集联系起来，从而为基座模型分析带来范式转变。模块社区中的技能分布表明，尽管LLMs并未严格地平行于特定生物系统中观察到的集中化专业化，但它们展现出独特的模块社区，其涌现的技能模式部分反映了鸟类和小型哺乳动物大脑中分布但互连的认知组织。我们的数值结果突出了从生物系统到LLMs的一个关键差异：技能获取在LLMs中得益于动态的跨区域交互和神经可塑性。通过将认知科学原理与机器学习相结合，我们的框架为LLMs的可解释性提供了新见解，并表明有效的微调策略应利用分布式学习动力学，而非僵化的模块干预。

25. Steering When Necessary: Flexible Steering Large Language Models with

Backtracking

作者: Jinwei Gan, Zifeng Cheng, Zhiwei Jiang, Cong Wang, Yafeng Yin, Xiang Luo, Yuchen Fu, Qing Gu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-25 | 👍 点赞数: 1

摘要:

大型语言模型（Large language models, LLMs）在多种生成任务中表现出色。然而，如何有效将其行为与期望目标对齐仍然是一个重大挑战。激活 steering 是一种高效且成本较低的方法，通过在推理阶段直接修改 LLMs 的激活状态，使其响应与期望行为保持一致，从而避免了微调的高昂成本。现有方法通常对所有生成内容进行无差别干预，或仅依赖问题本身来决定是否干预，这限制了对干预强度的准确评估。为此，我们提出了基于回溯的灵活激活 steering（Flexible Activation Steering with Backtracking, FASB）框架，该框架通过在生成过程中跟踪 LLMs 的内部状态，综合考虑问题内容和生成文本，动态判断干预的必要性和强度。由于在检测到偏离期望行为后再进行干预往往为时已晚，我们进一步提出了回溯机制，以修正已偏离的 token，并引导 LLMs 回到期望行为路径。在 TruthfulQA 数据集和六个多项选择数据集上的大量实验表明，我们的方法优于基线方法。代码将公开于 https://github.com/gjw185/FASB。

26. Forecasting Probability Distributions of Financial Returns with Deep

Neural Networks

作者: Jakub Michańków

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-26

摘要:

本研究评估了深度神经网络在金融收益概率分布预测中的应用效果。采用一维卷积神经网络（1D convolutional neural networks, CNN）和长短期记忆网络（Long Short-Term Memory, LSTM）架构预测三种概率分布（正态分布、学生t分布和偏斜学生t分布）的参数。通过自定义的负对数似然损失函数（negative log-likelihood loss function）直接优化分布参数。模型在六个主要股票指数（S&P 500、BOVESPA、DAX、WIG、日经225和KOSPI）上进行测试，使用包括对数预测得分（Log Predictive Score, LPS）、连续排序概率得分（Continuous Ranked Probability Score, CRPS）和概率积分变换（Probability Integral Transform, PIT）在内的概率评估指标进行评估。结果表明，深度学习模型能够提供准确的分布预测，并在风险价值（Value-at-Risk）估计方面与传统GARCH模型表现相当。其中，基于偏斜学生t分布的LSTM模型在多个评估标准中表现最优，能够同时捕捉金融收益中的厚尾性和非对称性。本研究证明，深度神经网络可作为传统计量经济学模型在金融风险评估和投资组合管理中的有效替代方案。

27. ClaimGen-CN: A Large-scale Chinese Dataset for Legal Claim Generation

作者: Siying Zhou, Yiquan Wu, Hui Chen, Xavier Hu, Kun Kuang, Adam Jatowt, Ming Hu, Chunyan Zheng, Fei Wu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-24

摘要:

法律主张是指案件中原告的诉求，对于引导司法推理和案件解决至关重要。尽管已有大量研究致力于提高法律专业人士的工作效率，但如何帮助非专业人士（例如原告）这一问题尚未得到充分探索。本文研究了基于给定案件事实生成法律主张的问题。首先，我们构建了ClaimGen-CN，这是首个面向中文法律主张生成任务的大规模数据集，来源于多种真实世界的法律纠纷。此外，我们设计了一种专门用于评估生成主张的评价指标，该指标涵盖事实性（factuality）和清晰性（clarity）两个关键维度。在此基础上，我们对当前最先进的通用和法律领域大语言模型进行了全面的零样本评估。研究结果突显了现有模型在事实准确性与表达清晰性方面的不足，表明该领域需要更具针对性的发展。为促进对此重要任务的进一步研究，我们将公开发布该数据集。

每日论文 - 2025年08月27日

1. VibeVoice Technical Report​

2. TreePO: Bridging the Gap of Policy Optimization and Efficacy and​

3. CMPhysBench: A Benchmark for Evaluating Large Language Models in​

4. VoxHammer: Training-Free Precise and Coherent 3D Editing in Native 3D​

5. OmniHuman-1.5: Instilling an Active Mind in Avatars via Cognitive​

6. Pixie: Fast and Generalizable Supervised Learning of 3D Physics from​

7. Spacer: Towards Engineered Scientific Inspiration​

8. UltraMemV2: Memory Networks Scaling to 120B Parameters with Superior​

9. Autoregressive Universal Video Segmentation Model​

10. CineScale: Free Lunch in High-Resolution Cinematic Visual Generation​

11. ThinkDial: An Open Recipe for Controlling Reasoning Effort in Large​

12. Wan-S2V: Audio-Driven Cinematic Video Generation​

13. FastMesh:Efficient Artistic Mesh Generation via Component Decoupling​

14. DrugReasoner: Interpretable Drug Approval Prediction with a​

15. ReportBench: Evaluating Deep Research Agents via Academic Survey Tasks​

16. Optimal Sparsity of Mixture-of-Experts Language Models for Reasoning​

17. ObjFiller-3D: Consistent Multi-view 3D Inpainting via Video Diffusion​

18. Select to Know: An Internal-External Knowledge Self-Selection Framework​

19. MovieCORE: COgnitive REasoning in Movies​

20. Demystifying Scientific Problem-Solving in LLMs by Probing Knowledge and​

21. Training Language Model Agents to Find Vulnerabilities with CTF-Dojo​

22. QueryBandits for Hallucination Mitigation: Exploiting Semantic Features​

23. Servant, Stalker, Predator: How An Honest, Helpful, And Harmless (3H)​

24. Unraveling the cognitive patterns of Large Language Models through​

25. Steering When Necessary: Flexible Steering Large Language Models with​

26. Forecasting Probability Distributions of Financial Returns with Deep​

27. ClaimGen-CN: A Large-scale Chinese Dataset for Legal Claim Generation​

1. VibeVoice Technical Report

2. TreePO: Bridging the Gap of Policy Optimization and Efficacy and

3. CMPhysBench: A Benchmark for Evaluating Large Language Models in

4. VoxHammer: Training-Free Precise and Coherent 3D Editing in Native 3D

5. OmniHuman-1.5: Instilling an Active Mind in Avatars via Cognitive

6. Pixie: Fast and Generalizable Supervised Learning of 3D Physics from

7. Spacer: Towards Engineered Scientific Inspiration

8. UltraMemV2: Memory Networks Scaling to 120B Parameters with Superior

9. Autoregressive Universal Video Segmentation Model

10. CineScale: Free Lunch in High-Resolution Cinematic Visual Generation

11. ThinkDial: An Open Recipe for Controlling Reasoning Effort in Large

12. Wan-S2V: Audio-Driven Cinematic Video Generation

13. FastMesh:Efficient Artistic Mesh Generation via Component Decoupling

14. DrugReasoner: Interpretable Drug Approval Prediction with a

15. ReportBench: Evaluating Deep Research Agents via Academic Survey Tasks

16. Optimal Sparsity of Mixture-of-Experts Language Models for Reasoning

17. ObjFiller-3D: Consistent Multi-view 3D Inpainting via Video Diffusion

18. Select to Know: An Internal-External Knowledge Self-Selection Framework

19. MovieCORE: COgnitive REasoning in Movies

20. Demystifying Scientific Problem-Solving in LLMs by Probing Knowledge and

21. Training Language Model Agents to Find Vulnerabilities with CTF-Dojo

22. QueryBandits for Hallucination Mitigation: Exploiting Semantic Features

23. Servant, Stalker, Predator: How An Honest, Helpful, And Harmless (3H)

24. Unraveling the cognitive patterns of Large Language Models through

25. Steering When Necessary: Flexible Steering Large Language Models with

26. Forecasting Probability Distributions of Financial Returns with Deep

27. ClaimGen-CN: A Large-scale Chinese Dataset for Legal Claim Generation