每日论文 - 2025年08月28日

论文总数: 17

1. Beyond Transcription: Mechanistic Interpretability in ASR

作者: Neta Glazer, Yael Segal-Feldman, Hilit Segev, Aviv Shamsian, Asaf Buchnick, Gill Hetz, Ethan Fetaya, Joseph Keshet, Aviv Navon

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-21 | 👍 点赞数: 73

摘要:

摘要：可解释性方法最近引起了广泛关注，尤其是在大语言模型领域，这些方法能够揭示语言表征、错误检测以及模型行为（如幻觉和重复）。然而，尽管这些技术在提升自动语音识别（ASR）系统的性能和可解释性方面具有潜力，但在该领域仍未得到充分探索。在本研究中，我们改编并系统应用了已有的可解释性方法，如logit lens、线性探测（linear probing）和激活修补（activation patching），以研究在ASR系统中声学和语义信息如何在各层之间演变。我们的实验揭示了此前未知的内部动态，包括特定的编码器-解码器交互机制，这些机制导致了重复幻觉以及深嵌于声学表征中的语义偏差。这些发现表明，将可解释性技术扩展并应用于语音识别领域具有显著优势，为未来提高模型透明度和鲁棒性的研究提供了有希望的方向。

2. Self-Rewarding Vision-Language Model via Reasoning Decomposition

作者: Zongxia Li, Wenhao Yu, Chengsong Huang, Rui Liu, Zhenwen Liang, Fuxiao Liu, Jingxi Che, Dian Yu, Jordan Boyd-Graber, Haitao Mi, Dong Yu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-27 | 👍 点赞数: 68

摘要:

视觉-语言模型（VLMs）常常面临视觉幻觉的问题，即描述图像中并不存在的内容，以及语言捷径的问题，即跳过视觉部分而仅依赖文本先验知识。这些问题的产生是因为大多数VLM的后训练方法依赖于简单的可验证答案匹配，并且仅对最终输出进行监督，而中间的视觉推理过程缺乏明确的指导。因此，VLMs接收到的视觉信号稀疏，并且往往倾向于优先使用基于语言的推理而非视觉感知。为缓解这些问题，一些现有方法通过人工标注或外部大模型提炼的标签增加视觉监督。然而，人工标注费时费力且成本高昂，而外部信号无法适应策略的演化，可能导致分布偏移，从而引发奖励黑客问题。本文中，我们提出了Vision-SR1，一种通过强化学习实现的自奖励方法，在不依赖外部视觉监督的情况下提升视觉推理能力。Vision-SR1将VLM的推理过程分解为两个阶段：视觉感知和语言推理。首先引导模型生成独立的视觉感知，这些感知足以在不参考原始图像的情况下回答问题。为了验证这种独立性，随后使用相同的VLM模型仅基于生成的感知进行语言推理，并据此计算奖励。这种自奖励机制与对最终输出的监督相结合，提供了平衡的训练信号，从而增强视觉感知和语言推理。我们的实验表明，Vision-SR1在多种视觉-语言任务中提升了视觉推理能力，缓解了视觉幻觉问题，并减少了对语言捷径的依赖。

3. CODA: Coordinating the Cerebrum and Cerebellum for a Dual-Brain Computer

Use Agent with Decoupled Reinforcement Learning

作者: Zeyi Sun, Yuhang Cao, Jianze Liang, Qiushi Sun, Ziyu Liu, Zhixiong Zhang, Yuhang Zang, Xiaoyi Dong, Kai Chen, Dahua Lin, Jiaqi Wang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-27 | 👍 点赞数: 27

摘要:

摘要：
面向图形用户界面（Graphical User Interfaces, GUI）的自主代理在科学计算等专业领域面临重大挑战，这些领域既需要长视野规划，也需要精确执行。现有方法存在权衡问题：通用型代理擅长规划但在执行上表现不佳，而专用型代理则表现出相反的弱点。近期的组合框架试图通过结合规划器和执行器来弥合这一差距，但它们通常是静态且不可训练的，从而阻碍了从经验中的适应能力。鉴于科学领域中高质量数据的稀缺性，这是一个关键限制。为解决这些局限性，我们提出CODA，一种新颖且可训练的组合框架，通过专门的两阶段训练流程，将通用规划器（Cerebrum）与专用执行器（Cerebellum）集成。在第一阶段“专业化”中，我们采用一种解耦的GRPO方法，从少量任务轨迹中引导训练每个科学应用的专家规划器。在第二阶段“泛化”中，我们汇总所有专业专家的成功轨迹，构建一个综合数据集，并用于对最终规划器进行监督式微调。这使得CODA兼具强大的执行能力和跨领域的泛化能力。在ScienceBoard基准测试的四个具有挑战性的应用上，CODA显著优于基线方法，并在开源模型中建立了新的最先进水平。

4. Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding

in Vision-Language-Action Policies

作者: Zhixuan Liang, Yizhuo Li, Tianshuo Yang, Chengyue Wu, Sitong Mao, Liuao Pei, Xiaokang Yang, Jiangmiao Pang, Yao Mu, Ping Luo

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-27 | 👍 点赞数: 22

摘要:

视觉-语言-动作（VLA）模型将大型视觉-语言主干网络适配为将图像和指令映射到机器人动作的模型。然而，现有的VLA解码器要么以固定的从左到右顺序自回归生成动作，要么在主干网络外附加连续扩散或流形匹配头，这需要专门的训练和迭代采样，限制了统一、可扩展架构的发展。我们提出Discrete Diffusion VLA，这是一种单一的Transformer策略，通过离散扩散对离散化的动作块进行建模，并使用与VLM主干网络相同的交叉熵目标进行训练。该设计保留了扩散模型的渐进优化范式，同时与VLM的离散token接口原生兼容。我们的方法实现了自适应解码顺序，在较难动作元素之前先解决较简单的动作元素，并通过二次重掩码在优化轮次中重新审视不确定的预测，从而提高一致性并实现鲁棒的错误校正。这种统一的解码器保留了预训练的视觉语言先验知识，支持并行解码，打破了自回归模型的瓶颈，减少了函数评估次数。Discrete Diffusion VLA在LIBERO上实现了96.3%的平均成功率，在SimplerEnv Fractal上实现了71.2%的视觉匹配率，在SimplerEnv Bridge上实现了49.3%的整体表现，优于自回归和连续扩散基线方法。这些结果表明，离散扩散动作解码器支持精确的动作建模和一致的训练，为将VLA扩展到更大模型和数据集奠定了基础。

5. MIDAS: Multimodal Interactive Digital-human Synthesis via Real-time

Autoregressive Video Generation

作者: Ming Chen, Liyuan Cui, Wenyuan Zhang, Haoxian Zhang, Yan Zhou, Xiaohan Li, Xiaoqiang Liu, Pengfei Wan

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-26 | 👍 点赞数: 22

摘要:

MIDAS: 通过实时自回归视频生成实现多模态交互式数字人合成

最近，交互式数字人视频生成引起了广泛关注，并取得了显著进展。然而，构建一个能够实时响应多种输入信号的实用系统对现有方法而言仍然具有挑战性，因为这些方法通常面临高延迟、高计算成本和可控性有限的问题。在本研究中，我们提出了一种自回归视频生成框架，该框架能够以流式方式实现交互式多模态控制和低延迟外推。在仅需对标准大语言模型（LLM）进行最小修改的前提下，我们的框架可接收包括音频、姿态和文本在内的多模态条件编码，并输出空间和语义上一致的表示，以指导扩散模块的去噪过程。为支撑这一框架，我们从多个来源构建了一个约20,000小时的大规模对话数据集，为训练提供了丰富的对话场景。此外，我们引入了一种深度压缩自编码器，压缩比最高可达64倍，有效减轻了自回归模型在长时域推断上的负担。在双工对话、多语言数字人合成以及交互式世界模型等多个任务上的广泛实验，突出了我们方法在低延迟、高效率和细粒度多模态可控性方面的显著优势。

6. Analysing Chain of Thought Dynamics: Active Guidance or Unfaithful

Post-hoc Rationalisation?

作者: Samuel Lewis-Lim, Xingwei Tan, Zhixue Zhao, Nikolaos Aletras

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-27 | 👍 点赞数: 21

摘要:

近期研究表明，思维链（Chain-of-Thought，CoT）在诸如分析推理和常识推理等软推理（soft-reasoning）问题上往往带来的提升有限。此外，CoT 有时并不忠实于模型实际的推理过程。本文在经过指令微调、推理能力增强及推理蒸馏的模型上，深入探究了 CoT 在软推理任务中的动态表现及其忠实性。研究结果揭示了这些模型在依赖 CoT 方式上的差异，并表明 CoT 的影响力与忠实性并不总是保持一致。

7. Predicting the Order of Upcoming Tokens Improves Language Modeling

作者: Zayd M. K. Zuhri, Erland Hilman Fuadi, Alham Fikri Aji

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-26 | 👍 点赞数: 15

摘要:

多令牌预测（Multi-Token Prediction, MTP）被提出作为辅助目标以改进语言模型训练中的下一令牌预测（next-token prediction, NTP），但其改进效果并不一致，在标准自然语言处理（NLP）基准测试中表现欠佳。我们认为，MTP的精确未来令牌预测作为辅助损失过于困难。相反，我们提出令牌顺序预测（Token Order Prediction, TOP），该方法通过使用排序学习（learning-to-rank）损失，训练模型根据即将出现令牌的邻近程度对其排序。与MTP所需的多个Transformer层相比，TOP仅需额外增加一个解嵌入（unembedding）层。我们分别使用NTP、MTP和TOP目标对参数量为340M、1.8B和7B的模型进行了预训练。在八个标准NLP基准测试中的结果显示，即使在大规模模型中，TOP整体上也优于NTP和MTP。我们的代码可在https://github.com/zaydzuhri/token-order-prediction获取。

8. AudioStory: Generating Long-Form Narrative Audio with Large Language

Models

作者: Yuxin Guo, Teng Wang, Yuying Ge, Shijie Ma, Yixiao Ge, Wei Zou, Ying Shan

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-27 | 👍 点赞数: 13

摘要:

摘要：近期文本到音频（TTA）生成技术在合成短音频片段方面表现出色，但在长篇叙事音频生成方面仍面临挑战，后者需要时间连贯性和组合推理能力。为填补这一空白，我们提出了AudioStory，一个将大语言模型（LLMs）与TTA系统集成的统一框架，用于生成结构化、长篇的音频叙事。AudioStory具备强大的指令跟随和推理生成能力。它利用LLMs将复杂的叙事查询分解为具有上下文线索的时间有序子任务，从而实现连贯的场景过渡和情感基调一致性。AudioStory具有两个显著特性：(1) 解耦式桥梁机制：AudioStory将LLM与扩散模型（diffuser）的协作分为两个专业化组件，即用于事件内语义对齐的桥梁查询和用于跨事件一致性保持的残差查询；(2) 端到端训练：通过在一个统一的端到端框架中整合指令理解和音频生成，AudioStory消除了模块化训练流程的需要，同时增强了各组件间的协同效应。此外，我们构建了一个基准数据集AudioStory-10K，涵盖动画音景和自然声音叙事等多个领域。大量实验表明，AudioStory在单音频生成和叙事音频生成任务上均优于现有TTA基线模型，无论是在指令跟随能力还是音频保真度方面均有显著提升。我们的代码已在https://github.com/TencentARC/AudioStory 公开。

9. Diffusion Language Models Know the Answer Before Decoding

作者: Pengxiang Li, Yefan Zhou, Dilxat Muhtar, Lu Yin, Shilin Yan, Li Shen, Yi Liang, Soroush Vosoughi, Shiwei Liu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-27 | 👍 点赞数: 13

摘要:

扩散语言模型（Diffusion Language Models, DLMs）最近成为自回归方法的一种替代方案，能够实现并行序列生成和灵活的标记顺序。然而，由于双向注意力机制的计算成本以及生成高质量输出所需的大量细化步骤，其推理速度仍然低于自回归模型。本研究中，我们强调并利用了DLMs的一个被忽视的特性——早期答案收敛性：在许多情况下，正确答案可以在最终解码步骤之前的一半步骤内被内部识别，无论是在半自回归还是随机重新掩码调度下。例如，在GSM8K和MMLU数据集上，分别有多达97%和99%的实例仅使用一半的细化步骤即可正确解码。基于这一观察，我们提出Prophet，一种无需训练的快速解码范式，支持提前提交解码。具体而言，Prophet利用前两个预测候选之间的置信度差距作为判断标准，动态决定是否继续细化或“全力投入”（即一步解码所有剩余标记）。该方法能够无缝集成到现有的DLM实现中，引入的额外开销可忽略不计，且无需额外训练。在多个任务上对LLaDA-8B和Dream-7B进行的实证评估表明，Prophet可将解码步骤减少高达3.4倍，同时保持高质量的生成效果。这些结果将DLM解码重新定义为一个何时停止采样的问题，并表明早期解码收敛性为加速DLM推理提供了一种简单而强大的机制，是对现有加速技术的有力补充。我们的代码已公开发布在https://github.com/pixeli99/Prophet。

10. Gaze into the Heart: A Multi-View Video Dataset for rPPG and Health

Biomarkers Estimation

作者: Konstantin Egorov, Stepan Botman, Pavel Blinov, Galina Zubkova, Anton Ivaschenko, Alexander Kolsanov, Andrey Savchenko

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-25 | 👍 点赞数: 13

摘要:

论文标题：Gaze into the Heart: A Multi-View Video Dataset for rPPG and Health Biomarkers Estimation

英文摘要翻译：

现有公开数据集的关键问题限制了远程光电容积描记法（rPPG）的发展，这些问题包括数据集规模小、面部视频存在的隐私问题以及条件多样性的缺乏。本文介绍了一种新颖的、大规模的、多视角视频数据集，用于rPPG和健康生物标志物估计。我们的数据集包含来自600名受试者的3600组同步视频记录，在不同角度使用多台消费级摄像机在多种条件下（静息和运动后）采集。为了实现生理状态的多模态分析，每段记录均配有一个100 Hz的PPG信号以及扩展的健康指标，如心电图、动脉血压、生物标志物、体温、血氧饱和度、呼吸频率和压力水平。利用这些数据，我们训练了一个高效的rPPG模型，并在跨数据集场景下比较了其与现有方法的效果。我们数据集和模型的公开发布将显著加快人工智能医疗助手的发展进程。

11. StepWiser: Stepwise Generative Judges for Wiser Reasoning

作者: Wei Xiong, Wenting Zhao, Weizhe Yuan, Olga Golovneva, Tong Zhang, Jason Weston, Sainbayar Sukhbaatar

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-26 | 👍 点赞数: 12

摘要:

摘要：随着模型越来越多地采用多步推理策略来解决复杂问题，监督这些中间步骤的逻辑有效性已成为一个关键的研究挑战。过程奖励模型通过提供逐步反馈来应对这一问题，但当前的方法存在两个主要缺陷：它们通常作为分类器而无法提供解释，并且依赖于静态数据集的监督微调，限制了泛化能力。受最新进展的启发，我们将逐步奖励建模从分类任务重新定义为一个推理任务本身。因此，我们提出了一种生成式判官模型，该模型对策略模型的推理步骤进行推理（即元推理），在给出最终判断之前输出思考标记。我们的模型StepWiser通过强化学习进行训练，利用rollouts的相对结果进行优化。我们证明了该模型在中间步骤的判断上具有（i）比现有方法更高的准确性；（ii）可用于训练过程中提升策略模型；（iii）能够改进推理阶段的搜索效果。

12. Mind the Third Eye! Benchmarking Privacy Awareness in MLLM-powered

Smartphone Agents

作者: Zhixin Lin, Jungang Li, Shidong Pan, Yibo Shi, Yue Yao, Dongliang Xu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-27 | 👍 点赞数: 10

摘要:

摘要：智能手机为用户带来了极大的便利，但也使设备能够广泛记录各种类型的个人信息。现有的由多模态大语言模型（Multimodal Large Language Models, MLLMs）驱动的智能手机代理在自动化执行不同任务方面已取得显著成效。然而，作为代价，这些代理在运行过程中被授予访问大量用户敏感个人信息的权限。为了全面了解这些代理的隐私意识水平，据我们所知，本文提出了首个涵盖7,138个场景的大规模基准测试。此外，针对场景中的隐私上下文，我们对其类型（例如，账户凭证）、敏感级别和位置进行了标注。随后，我们对七种主流的智能手机代理进行了细致的基准测试。实验结果表明，几乎所有被测试代理的隐私意识（RA）表现都不理想，即使在提供明确提示的情况下，性能仍低于60%。总体而言，闭源代理在隐私保护能力方面优于开源代理，其中Gemini 2.0-flash表现最佳，RA达到67%。我们还发现，代理的隐私检测能力与场景的敏感级别高度相关，即敏感级别越高的场景通常越容易被识别。我们希望这些发现能够启发研究社区重新思考智能手机代理在实用性与隐私保护之间的不平衡权衡。我们的代码和基准测试数据可在https://zhixin-l.github.io/SAPA-Bench获取。

13. SEAM: Semantically Equivalent Across Modalities Benchmark for

Vision-Language Models

作者: Zhenwei Tang, Difan Jiao, Blair Yang, Ashton Anderson

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-25 | 👍 点赞数: 8

摘要:

摘要：评估视觉-语言模型（Vision-Language Models, VLMs）在不同表示形式下是否能够一致推理是一项挑战，因为模态比较通常受到任务差异和信息不对称的干扰。我们提出了SEAM，这是一个跨四个领域的基准测试，每个领域均有标准的文本和视觉表示方法，且输入在语义上是等价的。与基于OCR的图文配对不同，SEAM通过在不同模态中采用不同的表示系统，严格比较了VLMs在文本-符号和视觉-空间推理方面的能力。在21种当前主流模型上的实验表明，模态之间存在系统性的不平衡：尽管问题在语义上等价，视觉模态的整体表现通常落后于语言模态，且跨模态一致性相对较低。我们的错误分析揭示了两个主要原因：一是领域表示中的符号化过程导致文本感知失败，二是视觉感知失败引发的幻觉现象。我们还展示了实验结果在视觉变换下具有较强的鲁棒性。SEAM为测量和提升与模态无关的推理能力提供了一个受控且语义等价的评估环境。

14. MotionFlux: Efficient Text-Guided Motion Generation through Rectified

Flow Matching and Preference Alignment

作者: Zhiting Gao, Dan Song, Diqiong Jiang, Chao Xue, An-An Liu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-27 | 👍 点赞数: 7

摘要:

MotionFlux: 通过修正流匹配与偏好对齐实现高效的文本引导运动生成

运动生成对于虚拟角色和具身智能体的动画制作至关重要。尽管近期的文本驱动方法取得了显著进展，但在语言描述与运动语义之间的精确对齐以及推理过程缓慢、多步骤效率低下方面仍存在挑战。为解决这些问题，我们提出了TMR++对齐偏好优化（TAPO），这是一种创新框架，能够将细微的运动变化与文本修饰词对齐，并通过迭代调整加强语义基础。为进一步实现实时合成，我们提出了基于确定性修正流匹配的高速生成框架MotionFLUX。与需要数百个去噪步骤的传统扩散模型不同，MotionFLUX在噪声分布与运动空间之间构建最优传输路径，从而实现快速实时合成。线性化的概率路径减少了序列方法中典型的多步采样需求，显著加快了推理速度，同时不牺牲运动质量。实验结果表明，TAPO与MotionFLUX共同构成的统一系统，在语义一致性与运动质量方面均优于当前最先进的方法，同时显著提升了生成速度。代码与预训练模型将公开发布。

15. DeepScholar-Bench: A Live Benchmark and Automated Evaluation for

Generative Research Synthesis

作者: Liana Patel, Negar Arabzadeh, Harshit Gupta, Ankita Sundar, Ion Stoica, Matei Zaharia, Carlos Guestrin

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-27 | 👍 点赞数: 4

摘要:

摘要：研究和综合知识的能力是人类专业知识和进步的核心。一类新兴系统通过生成式研究综合（generative research synthesis）承诺实现这些令人兴奋的能力，其通过在实时网络上执行检索，并将发现的来源综合成长篇、带引用的摘要。然而，评估此类系统仍然是一个开放性挑战：现有的问答基准主要关注短篇事实性回答，而专家策划的数据集则存在过时和数据污染的风险。两者都无法捕捉真实研究综合任务的复杂性和动态演变特性。在本研究中，我们提出了DeepScholar-bench，一个实时基准测试和整体自动化评估框架，旨在评估生成式研究综合能力。DeepScholar-bench从近期高质量的ArXiv论文中提取查询任务，聚焦于一个真实的研究综合任务：通过检索、综合和引用先前研究来生成论文的“相关工作”部分。我们的评估框架从三个关键维度全面评估性能：知识综合、检索质量和可验证性。我们还开发了DeepScholar-base，一个基于LOTUS API高效实现的参考系统。利用DeepScholar-bench框架，我们对先前的开源系统、搜索AI系统、OpenAI的DeepResearch以及DeepScholar-base进行了系统评估。我们发现DeepScholar-base建立了强有力的基线，在各项指标上表现具有竞争力或更优。此外，我们发现DeepScholar-bench仍远未达到饱和状态，没有任何系统在所有指标上得分超过19%。这些结果突显了DeepScholar-bench的挑战性，以及其在推动AI系统实现生成式研究综合能力方面的重要性。我们的代码可在https://github.com/guestrin-lab/deepscholar-bench获取。

16. Taming the Chaos: Coordinated Autoscaling for Heterogeneous and

Disaggregated LLM Inference

作者: Rongzhi Li, Ruogu Du, Zefang Chu, Sida Zhao, Chunlei Han, Zuocheng Shi, Yiwen Shao, Huanle Han, Long Huang, Zherui Liu, Shufan Liu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-27 | 👍 点赞数: 4

摘要:

驯服混乱：异构与解耦的大语言模型推理协调自动扩展

服务大语言模型（LLMs）是一项对GPU资源高度依赖的任务，传统的自动扩展方法在此场景下表现不足，尤其在现代预填充-解码（P/D）解耦架构中更为明显。这种架构虽然强大，但带来了显著的运维挑战，包括异构硬件的低效利用、网络瓶颈，以及预填充阶段与解码阶段之间的关键不平衡。我们提出了HeteroScale，一个协调自动扩展的框架，专门应对P/D解耦架构在服务中的核心挑战。HeteroScale结合了一个能够适应异构硬件和网络约束的拓扑感知调度器，以及一项基于生产环境中首次大规模自动扩展信号实证研究所推导出的新型指标驱动策略。通过使用一个统一且稳健的指标来联合扩展预填充和解码资源池，HeteroScale在确保高效、自适应资源管理的同时维持架构的平衡。HeteroScale已在数万个GPU组成的大型生产环境中部署，证明了其卓越的有效性，平均GPU利用率提升了26.6个百分点，并每天节省数十万GPU小时的资源消耗，同时始终满足严格的服务等级目标（Service Level Objectives, SLOs）。

17. Training a Foundation Model for Materials on a Budget

作者: Teddy Koker, Tess Smidt

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-22 | 👍 点赞数: 2

摘要:

摘要：材料建模的基础模型正在快速发展，但其训练成本仍然较高，使得许多研究团队难以采用最先进的方法。我们提出Nequix，这是一种紧凑的E(3)-等变势函数模型，结合了简化的NequIP架构与现代训练方法，包括等变均方根层归一化（equivariant root-mean-square layer normalization）和Muon优化器（Muon optimizer），在显著降低计算需求的同时保持了预测精度。Nequix基于JAX构建，包含70万个参数，训练耗时500个A100-GPU小时。在Matbench-Discovery和MDR Phonon基准测试中，Nequix总体排名第三，且训练成本不足大多数其他方法的四分之一；相较于当前排名最高的模型，Nequix还实现了快达一个数量级的推理速度。我们已公开模型权重和完全可复现的代码库，详见https://github.com/atomicarchitects/nequix

每日论文 - 2025年08月28日

1. Beyond Transcription: Mechanistic Interpretability in ASR​

2. Self-Rewarding Vision-Language Model via Reasoning Decomposition​

3. CODA: Coordinating the Cerebrum and Cerebellum for a Dual-Brain Computer​

4. Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding​

5. MIDAS: Multimodal Interactive Digital-human Synthesis via Real-time​

6. Analysing Chain of Thought Dynamics: Active Guidance or Unfaithful​

7. Predicting the Order of Upcoming Tokens Improves Language Modeling​

8. AudioStory: Generating Long-Form Narrative Audio with Large Language​

9. Diffusion Language Models Know the Answer Before Decoding​

10. Gaze into the Heart: A Multi-View Video Dataset for rPPG and Health​

11. StepWiser: Stepwise Generative Judges for Wiser Reasoning​

12. Mind the Third Eye! Benchmarking Privacy Awareness in MLLM-powered​

13. SEAM: Semantically Equivalent Across Modalities Benchmark for​

14. MotionFlux: Efficient Text-Guided Motion Generation through Rectified​

15. DeepScholar-Bench: A Live Benchmark and Automated Evaluation for​

16. Taming the Chaos: Coordinated Autoscaling for Heterogeneous and​

17. Training a Foundation Model for Materials on a Budget​

1. Beyond Transcription: Mechanistic Interpretability in ASR

2. Self-Rewarding Vision-Language Model via Reasoning Decomposition

3. CODA: Coordinating the Cerebrum and Cerebellum for a Dual-Brain Computer

4. Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding

5. MIDAS: Multimodal Interactive Digital-human Synthesis via Real-time

6. Analysing Chain of Thought Dynamics: Active Guidance or Unfaithful

7. Predicting the Order of Upcoming Tokens Improves Language Modeling

8. AudioStory: Generating Long-Form Narrative Audio with Large Language

9. Diffusion Language Models Know the Answer Before Decoding

10. Gaze into the Heart: A Multi-View Video Dataset for rPPG and Health

11. StepWiser: Stepwise Generative Judges for Wiser Reasoning

12. Mind the Third Eye! Benchmarking Privacy Awareness in MLLM-powered

13. SEAM: Semantically Equivalent Across Modalities Benchmark for

14. MotionFlux: Efficient Text-Guided Motion Generation through Rectified

15. DeepScholar-Bench: A Live Benchmark and Automated Evaluation for

16. Taming the Chaos: Coordinated Autoscaling for Heterogeneous and

17. Training a Foundation Model for Materials on a Budget