Skip to main content

每日论文 - 2025年08月21日

论文总数: 19

1. DuPO: Enabling Reliable LLM Self-Verification via Dual Preference

Optimization

作者: Shuaijie She, Yu Bao, Yu Lu, Lu Xu, Tao Li, Wenhao Zhu, Shujian Huang, Shanbo Cheng, Lu Lu, Yuxuan Wang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-20 | 👍 点赞数: 56

摘要:

我们提出了DuPO,一种基于双重学习的偏好优化框架,通过广义对偶性生成无需标注的反馈。DuPO解决了两个关键限制:可验证奖励强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)对昂贵标签的依赖性及其仅适用于可验证任务的局限性,以及传统双重学习对严格对偶任务对(例如翻译与回译)的限制。具体而言,DuPO将原始任务的输入分解为已知与未知部分,然后构建其对偶任务,利用原始任务的输出和已知信息来重建未知部分(例如,通过数学解答反推隐藏变量),从而将适用范围扩展到不可逆任务。这种重建的质量作为自监督奖励用于优化原始任务,并与大语言模型(LLM)通过单一模型实现两个任务的能力形成协同效应。实证结果显示,DuPO在多种任务上均取得显著提升:在756个翻译方向上平均提升2.13 COMET分值,在三个数学推理挑战基准上平均准确率提升6.4个百分点,并作为推理阶段重排序器时通过计算资源换取精度带来9.3分的提升。这些结果表明,DuPO是一种可扩展、通用且无需标注的LLM优化范式。


2. From Scores to Skills: A Cognitive Diagnosis Framework for Evaluating

Financial Large Language Models

作者: Ziyan Kuang, Feiyu Zhu, Maowei Jiang, Yanzhao Lai, Zelin Wang, Zhitong Wang, Meikang Qiu, Jiajia Huang, Min Peng, Qianqian Xie, Sophia Ananiadou

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-19 | 👍 点赞数: 53

摘要:

摘要:大型语言模型(Large Language Models, LLMs)在金融领域展现出潜力,但由于现有基准测试的不足,其在这一高风险领域的适用性仍未得到充分验证。现有基准测试仅依赖于得分层面的评估,通过单一分数总结模型性能,掩盖了模型真正掌握的知识及其具体局限性的细微差异。此外,这些基准测试所使用的数据集仅涵盖有限的金融概念,忽略了实际应用中所需的其他关键要素。为弥补这些不足,我们提出了FinCDM,这是首个专为金融LLMs设计的认知诊断评估框架,能够在知识-技能层面评估LLMs,基于其在技能标注任务中的回答模式,识别模型具备或缺乏的具体金融技能和知识,而非依赖单一的汇总分数。我们构建了CPA-QKA,这是首个基于注册会计师(Certified Public Accountant, CPA)考试的认知驱动金融评估数据集,全面覆盖现实世界中的会计和金融技能。该数据集由领域专家严格标注,问题由专家编写、验证,并具有高度标注一致性及细粒度的知识标签。我们在30个专有、开源和领域专用LLMs上进行了大量实验,结果表明FinCDM能够揭示隐藏的知识缺口,识别传统基准测试未充分覆盖的领域(如税务和监管推理),并发现模型之间的行为聚类。FinCDM通过可解释、技能感知的诊断方法,为金融LLM评估引入了新的范式,支持更可靠和有针对性的模型开发,所有数据集和评估脚本将公开发布,以促进后续研究。


3. FutureX: An Advanced Live Benchmark for LLM Agents in Future Prediction

作者: Zhiyuan Zeng, Jiashuo Liu, Siyuan Chen, Tianci He, Yali Liao, Jinpeng Wang, Zaiyuan Wang, Yang Yang, Lingyue Yin, Mingren Yin, Zhenwei Zhu, Tianle Cai, Zehui Chen, Jiecao Chen, Yantao Du, Xiang Gao, Jiacheng Guo, Liang Hu, Jianpeng Jiao, Xiangsheng Li, Jingkai Liu, Shuang Ni, Zhoufutu Wen, Ge Zhang, Kaiyuan Zhang, Xin Zhou, Jose Blanchet, Xipeng Qiu, Mengdi Wang, Wenhao Huang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-16 | 👍 点赞数: 46

摘要:

未来预测是一项复杂的任务,对LLM代理(LLM agents)提出了高要求,包括分析思维、信息收集、情境理解以及在不确定性下的决策能力。代理不仅需要收集和解读大量动态信息,还需整合多种数据来源、权衡不确定性,并根据新出现的趋势调整预测,这一过程与政治、经济和金融等领域的人类专家工作方式类似。尽管未来预测至关重要,但目前尚无大规模基准可用于评估代理在该任务上的表现,这主要由于实时更新处理和及时准确答案获取所面临的挑战。为解决这一问题,我们提出了FutureX,一个专为LLM代理设计的动态实时评估基准,用于未来预测任务。FutureX是当前规模最大的、最多样化的未来预测实时基准,支持每日实时更新,并通过自动化的问题收集与答案获取流程消除数据污染。我们评估了25种LLM/代理模型,包括具备推理能力、搜索能力以及集成了外部工具(如开源的Deep Research Agent和闭源的Deep Research模型)的模型。此次全面评估考察了代理在动态环境中的适应性推理能力和表现。此外,我们还深入分析了代理在未来导向任务中的失败模式和性能瓶颈,包括对虚假网页的易感性和时间有效性问题。我们的目标是建立一个动态、无污染的评估标准,推动LLM代理在复杂推理和预测思维方面达到专业人类分析师的水平。


4. MeshCoder: LLM-Powered Structured Mesh Code Generation from Point Clouds

作者: Bingquan Dai, Li Ray Luo, Qihong Tang, Jie Wang, Xinyu Lian, Hao Xu, Minghan Qin, Xudong Xu, Bo Dai, Haoqian Wang, Zhaoyang Lyu, Jiangmiao Pang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-20 | 👍 点赞数: 29

摘要:

MeshCoder:基于大语言模型的点云结构化网格代码生成

从逆向工程和形状编辑等应用角度来看,将3D物体重建为可编辑程序至关重要。然而,现有方法通常依赖于有限的领域特定语言(DSL)和小规模数据集,限制了其对复杂几何形状和结构的建模能力。为应对这些挑战,我们提出MeshCoder,一种新颖的框架,能够将点云中的复杂3D物体重建为可编辑的Blender Python脚本。我们开发了一套功能强大的Blender Python API,能够合成复杂的几何结构。基于这些API,我们构建了一个大规模的物体-代码配对数据集,其中每个物体的代码被分解为不同的语义部分。随后,我们训练了一个多模态大语言模型(LLM),将3D点云转化为可执行的Blender Python脚本。我们的方法不仅在形状到代码的重建任务中表现出色,还通过便捷的代码修改实现了直观的几何与拓扑编辑。此外,基于代码的表示增强了LLM在3D形状理解任务中的推理能力。综上所述,MeshCoder为程序化的3D形状重建与理解提供了一种强大且灵活的解决方案。


5. Tinker: Diffusion's Gift to 3D--Multi-View Consistent Editing From

Sparse Inputs without Per-Scene Optimization

作者: Canyu Zhao, Xiaoman Li, Tianjian Feng, Zhiyue Zhao, Hao Chen, Chunhua Shen

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-20 | 👍 点赞数: 26

摘要:

我们提出了Tinker,这是一种通用的高保真3D编辑框架,能够在单样本(one-shot)和少样本(few-shot)模式下运行,而无需任何针对特定场景的微调(per-scene finetuning)。与以往需要大量针对特定场景的优化以确保多视角一致性或生成数十个一致编辑输入视图的技术不同,Tinker仅需一到两张图像即可实现鲁棒的、多视角一致的编辑。这一能力源于对预训练扩散模型(diffusion models)的再利用,从而解锁了其潜在的3D感知能力。为了推动该领域的研究,我们构建了首个大规模多视角编辑数据集及数据处理流程,涵盖多样化的场景和风格。在此数据集基础上,我们开发了Tinker框架,其能够在无需场景特定训练的情况下生成多视角一致的编辑视图,框架包含两个创新组件:(1)参考驱动多视角编辑器(Referring multi-view editor):实现精确的、参考图像驱动的编辑,并在所有视角下保持一致性;(2)任意视角到视频合成器(Any-view-to-video synthesizer):利用视频扩散模型中的时空先验信息,即使在输入稀疏的情况下,也能实现高质量的场景补全和新视角生成。通过广泛的实验验证,Tinker显著降低了通用3D内容创作的门槛,在编辑、新视角合成和渲染增强任务中均达到了最先进的性能。我们认为,Tinker代表了迈向真正可扩展的零样本(zero-shot)3D编辑的重要一步。项目主页:https://aim-uofa.github.io/Tinker


6. From AI for Science to Agentic Science: A Survey on Autonomous

Scientific Discovery

作者: Jiaqi Wei, Yuejin Yang, Xiang Zhang, Yuhan Chen, Xiang Zhuang, Zhangyang Gao, Dongzhan Zhou, Guangshuai Wang, Zhiqiang Gao, Juntai Cao, Zijie Qiu, Xuming He, Qiang Zhang, Chenyu You, Shuangjia Zheng, Ning Ding, Wanli Ouyang, Nanqing Dong, Yu Cheng, Siqi Sun, Lei Bai, Bowen Zhou

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-18 | 👍 点赞数: 20

摘要:

人工智能(AI)正在重塑科学发现,从专用的计算工具演变为自主的研究合作伙伴。我们将“Agentic Science”(能动科学)定位在更广泛的“AI for Science”(科学智能)范式中的一个关键阶段,在此阶段,AI系统实现了从部分辅助到完整科学能动性的进步。依托大语言模型(LLMs)、多模态系统和集成研究平台,具备能动性的AI展现出在假设生成、实验设计、执行、分析以及迭代优化方面的能力——这些行为曾被认为专属于人类。本综述从领域导向的视角对生命科学、化学、材料科学和物理学中的自主科学发现进行了回顾。我们通过一个综合框架,将此前割裂的三种视角——过程导向、自主性导向和机制导向——统一起来,该框架连接了基础能力、核心过程和领域具体实现。基于此框架,我们(i)梳理了AI for Science的发展历程,(ii)识别出支撑科学能动性的五项核心能力,(iii)将科学发现建模为一个动态的四阶段工作流程,(iv)回顾了上述领域中的应用案例,并(v)总结了关键挑战与未来机遇。本研究为自主科学发现提供了领域导向的整合视角,并将Agentic Science确立为推动AI驱动科研的结构化范式。


7. MCP-Universe: Benchmarking Large Language Models with Real-World Model

Context Protocol Servers

作者: Ziyang Luo, Zhiqi Shen, Wenzhuo Yang, Zirui Zhao, Prathyusha Jwalapuram, Amrita Saha, Doyen Sahoo, Silvio Savarese, Caiming Xiong, Junnan Li

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-20 | 👍 点赞数: 17

摘要:

模型上下文协议已成为连接大语言模型与外部数据源和工具的变革性标准,迅速被主要AI提供商和开发平台采用。然而,现有的基准测试过于简化,无法捕捉现实应用场景中的挑战,例如长视野推理和面对大型且陌生的工具空间。为填补这一关键空白,我们提出了MCP-Universe,这是首个专门设计用于通过与真实世界MCP服务器交互来评估大语言模型在复杂任务中表现的综合性基准测试。我们的基准测试涵盖6个核心领域,涉及11种不同的MCP服务器:位置导航、仓库管理、财务分析、三维设计、浏览器自动化和网络搜索。为了确保评估的严谨性,我们实现了基于执行的评估器,包括用于代理格式合规的格式评估器、用于时间不变内容匹配的静态评估器,以及用于自动检索时间敏感任务实时真实数据的动态评估器。通过对当前领先的大语言模型进行广泛评估,我们发现即使是SOTA模型如GPT-5(43.72%)、Grok-4(33.33%)和Claude-4.0-Sonnet(29.44%)也表现出显著的性能限制。此外,随着交互步骤数量的增加,输入token数量迅速增长,我们的基准测试对大语言模型代理提出了显著的长上下文挑战。同时,它还引入了未知工具的挑战,因为大语言模型代理通常不熟悉MCP服务器的具体使用方式。值得注意的是,Cursor等企业级代理的表现并不优于标准的ReAct框架。除了评估功能外,我们还开源了支持UI的可扩展评估框架,使研究人员和从业者能够无缝集成新的代理和MCP服务器,从而推动快速发展的MCP生态系统中的创新。


8. Quantization Meets dLLMs: A Systematic Study of Post-training

Quantization for Diffusion LLMs

作者: Haokun Lin, Haobo Xu, Yichen Wu, Ziyu Guo, Renrui Zhang, Zhichao Lu, Ying Wei, Qingfu Zhang, Zhenan Sun

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-20 | 👍 点赞数: 14

摘要:

摘要:扩散大语言模型(diffusion large language models, dLLMs)的最新进展为自然语言生成任务提供了有前景的替代方案,相较于自回归(autoregressive, AR)大语言模型,其采用了全注意力机制和基于去噪的解码策略。然而,由于这些模型的参数规模庞大且资源需求高,将其部署在边缘设备上仍面临挑战。尽管训练后量化(post-training quantization, PTQ)已成为压缩AR大语言模型的广泛采用技术,但其在dLLMs中的适用性仍鲜有研究。本文中,我们首次对基于扩散的语言模型的量化进行了系统研究。我们首先识别了激活值中异常大的激活值(即激活异常值)的存在,这些异常值主导了动态范围,成为低比特量化的主要挑战,因为它们使得对大多数值的精度保持变得困难。更重要的是,我们实现了当前最先进的PTQ方法,并在多种任务类型和模型变体上进行了全面评估。我们的分析从比特宽度、量化方法、任务类别和模型类型四个关键维度展开。通过这一多视角评估,我们提供了在不同配置下dLLMs量化行为的实用见解。我们希望我们的研究成果能为未来高效dLLM部署的研究奠定基础。所有代码和实验设置将公开发布以支持学术界。


9. NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid

Mamba-Transformer Reasoning Model

作者: NVIDIA, Aarti Basant, Abhijit Khairnar, Abhijit Paithankar, Abhinav Khattar, Adi Renduchintala, Adithya Renduchintala, Aditya Malte, Akhiad Bercovich, Akshay Hazare, Alejandra Rico, Aleksander Ficek, Alex Kondratenko, Alex Shaposhnikov, Ali Taghibakhshi, Amelia Barton, Ameya Sunil Mahabaleshwarkar, Amy Shen, Andrew Tao, Ann Guan, Anna Shors, Anubhav Mandarwal, Arham Mehta, Arun Venkatesan, Ashton Sharabiani, Ashwath Aithal, Ashwin Poojary, Ayush Dattagupta, Balaram Buddharaju, Banghua Zhu, Barnaby Simkin, Bilal Kartal, Bita Darvish Rouhani, Bobby Chen, Boris Ginsburg, Brandon Norick, Brian Yu, Bryan Catanzaro, Charles Wang, Charlie Truong, Chetan Mungekar, Chintan Patel, Chris Alexiuk, Christian Munley, Christopher Parisien, Dan Su, Daniel Afrimi, Daniel Korzekwa, Daniel Rohrer, Daria Gitman, David Mosallanezhad, Deepak Narayanan, Dima Rekesh, Dina Yared, Dmytro Pykhtar, Dong Ahn, Duncan Riach, Eileen Long, Elliott Ning, Eric Chung, Erick Galinkin, Evelina Bakhturina, Gargi Prasad, Gerald Shen, Haim Elisha, Harsh Sharma, Hayley Ross, Helen Ngo, Herman Sahota, Hexin Wang, Hoo Chang Shin, Hua Huang, Iain Cunningham, Igor Gitman, Ivan Moshkov, Jaehun Jung, Jan Kautz, Jane Polak Scowcroft, Jared Casper, Jimmy Zhang, Jinze Xue, Jocelyn Huang, Joey Conway, John Kamalu, Jonathan Cohen, Joseph Jennings, Julien Veron Vialard, Junkeun Yi, Jupinder Parmar, Kari Briski, Katherine Cheung, Katherine Luna, Keith Wyss, Keshav Santhanam, Kezhi Kong, Krzysztof Pawelec, Kumar Anik, Kunlun Li, Kushan Ahmadian, Lawrence McAfee, Laya Sleiman, Leon Derczynski, Luis Vega, Maer Rodrigues de Melo, Makesh Narsimhan Sreedhar, Marcin Chochowski, Mark Cai, Markus Kliegl, Marta Stepniewska-Dziubinska, Matvei Novikov, Mehrzad Samadi, Meredith Price, Meriem Boubdir, Michael Boone, Michael Evans, Michal Bien, Michal Zawalski, Miguel Martinez, Mike Chrzanowski, Mohammad Shoeybi, Mostofa Patwary, Namit Dhameja, Nave Assaf, Negar Habibi, Nidhi Bhatia, Nikki Pope, Nima Tajbakhsh, Nirmal Kumar Juluru, Oleg Rybakov, Oleksii Hrinchuk, Oleksii Kuchaiev, Oluwatobi Olabiyi, Pablo Ribalta, Padmavathy Subramanian, Parth Chadha, Pavlo Molchanov, Peter Dykas, Peter Jin, Piotr Bialecki, Piotr Januszewski, Pradeep Thalasta, Prashant Gaikwad, Prasoon Varshney, Pritam Gundecha, Przemek Tredak, Rabeeh Karimi Mahabadi, Rajen Patel, Ran El-Yaniv, Ranjit Rajan, Ria Cheruvu, Rima Shahbazyan, Ritika Borkar, Ritu Gala, Roger Waleffe, Ruoxi Zhang, Russell J. Hewett, Ryan Prenger, Sahil Jain, Samuel Kriman, Sanjeev Satheesh, Saori Kaji, Sarah Yurick, Saurav Muralidharan, Sean Narenthiran, Seonmyeong Bak, Sepehr Sameni, Seungju Han, Shanmugam Ramasamy, Shaona Ghosh, Sharath Turuvekere Sreenivas, Shelby Thomas, Shizhe Diao, Shreya Gopal, Shrimai Prabhumoye, Shubham Toshniwal, Shuoyang Ding, Siddharth Singh, Siddhartha Jain, Somshubra Majumdar, Stefania Alborghetti, Syeda Nahida Akter, Terry Kong, Tim Moon, Tomasz Hliwiak, Tomer Asida, Tony Wang, Twinkle Vashishth, Tyler Poon, Udi Karpas, Vahid Noroozi, Venkat Srinivasan, Vijay Korthikanti, Vikram Fugro, Vineeth Kalluru, Vitaly Kurin, Vitaly Lavrukhin, Wasi Uddin Ahmad, Wei Du, Wonmin Byeon, Ximing Lu, Xin Dong, Yashaswi Karnati, Yejin Choi, Yian Zhang, Ying Lin, Yonggan Fu, Yoshi Suhara, Zhen Dong, Zhiyu Li, Zhongbo Zhu, Zijia Chen

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-20 | 👍 点赞数: 13

摘要:

我们推出了Nemotron-Nano-9B-v2,这是一种混合型Mamba-Transformer语言模型,旨在提高推理工作负载的吞吐量,同时相较于同规模模型实现最先进的准确性。Nemotron-Nano-9B-v2基于Nemotron-H架构,在该架构中,传统Transformer架构中大多数自注意力层被Mamba-2层取代,从而在生成推理所需的长思维轨迹时实现更高的推理速度。我们首先使用FP8训练方案在20万亿个token上预训练了一个120亿参数的模型(Nemotron-Nano-12B-v2-Base),然后通过对齐该模型,采用Minitron策略对其进行压缩和蒸馏,目标是在单块NVIDIA A10G GPU(22GiB内存,bfloat16精度)上支持最多128k token的推理。与现有同规模模型(如Qwen3-8B)相比,我们表明Nemotron-Nano-9B-v2在推理基准测试中实现了相当或更高的准确性,并在8k输入和16k输出token等推理场景下实现了高达6倍的推理吞吐量提升。我们将在Hugging Face上发布Nemotron-Nano-9B-v2、Nemotron-Nano-12B-v2-Base以及Nemotron-Nano-9B-v2-Base的检查点,同时发布大部分预训练和后训练数据集。


10. RynnEC: Bringing MLLMs into Embodied World

作者: Ronghao Dang, Yuqian Yuan, Yunxuan Mao, Kehan Li, Jiangpin Liu, Zhikai Wang, Xin Li, Fan Wang, Deli Zhao

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-19 | 👍 点赞数: 9

摘要:

我们提出RynnEC,一种专为具身认知设计的视频多模态大语言模型。基于一个通用的视觉-语言基础模型,RynnEC引入了一个区域编码器和一个掩码解码器,从而实现了灵活的区域级视频交互。尽管架构紧凑,RynnEC在物体属性理解、物体分割和空间推理方面均达到了最先进的性能。从概念上讲,它为具身智能体的“大脑”提供了一种以区域为中心的视频范式,实现对物理世界的细粒度感知并支持更精确的交互。为缓解标注3D数据集稀缺的问题,我们提出了一种基于以自我为中心视频的数据生成流程,用于构建具身认知数据集。此外,我们还引入了RynnEC-Bench,这是一个以区域为中心的具身认知能力评估基准。我们期望RynnEC能够推动通用具身认知核心的发展,并促进多样化具身任务间的泛化能力。代码、模型权重和基准测试集已发布在:https://github.com/alibaba-damo-academy/RynnEC。


11. Virtuous Machines: Towards Artificial General Science

作者: Gabrielle Wehr, Reuben Rideaux, Amaya J. Fox, David R. Lightfoot, Jason Tangen, Jason B. Mattingley, Shane E. Ehrhardt

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-19 | 👍 点赞数: 7

摘要:

人工智能系统正在通过加速特定研究任务(从蛋白质结构预测到材料设计)改变科学发现,但其应用仍局限于需要大量人工监督的狭窄领域。科学文献的指数级增长和学科领域的日益专业化限制了研究人员跨学科综合知识和建立统一理论的能力,这促使人们探索更通用的科学人工智能系统。本文表明,一个跨领域通用的、具有自主行为能力的AI系统可以独立地完成科学工作流程——从假设生成到数据收集,直至论文撰写。该系统自主设计并执行了三项关于视觉工作记忆、心理旋转和意象生动性的心理学研究,完成了一次包含288名参与者的新在线数据收集任务,通过持续8小时以上的连续编码会话开发了数据分析流程,并生成了完整的论文。结果表明,AI科学发现流程具备进行具有理论推理能力和方法论严谨性的非简单性研究的能力,其水平可与经验丰富的研究人员相媲美,尽管在概念细微性和理论解释方面仍存在局限性。这是迈向能够通过现实世界实验检验假设的具身AI的重要一步,通过自主探索人类认知和资源限制下难以触及的科学领域来加速科学发现。这也引发了关于科学理解本质以及科学贡献归属的重要问题。


12. On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised

Fine-Tuning and Reinforcement Learning via Dynamic Weighting

作者: Wenhao Zhang, Yuexiang Xie, Yuchang Sun, Yanxi Chen, Guoyin Wang, Yaliang Li, Bolin Ding, Jingren Zhou

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-15 | 👍 点赞数: 5

摘要:

监督微调(Supervised Fine-Tuning, SFT)和强化学习(Reinforcement Learning, RL)是提升大语言模型(Large Language Models, LLMs)能力并对其行为进行对齐的两种重要后训练范式。现有将SFT与RL相结合的方法常常面临破坏模型已有模式并导致对专家数据过拟合的风险。为解决这一问题,我们从离策略(off-policy)与在策略(on-policy)视角出发,对SFT与RL的统一视角进行了新的探讨。我们提出了CHORD框架,即通过动态加权实现可控的在策略与离策略强化学习的融合(Controllable Harmonization of On- and Off-Policy Reinforcement Learning via Dynamic Weighting),该框架将SFT重新定义为在策略RL过程中一个动态加权的辅助目标,而非一个独立阶段。基于对离策略专家数据在整体与细粒度层面影响的分析,我们在CHORD中引入了双重控制机制。具体而言,该框架首先采用一个全局系数从整体上引导模型从离策略模仿向在策略探索过渡;随后引入逐token的加权函数,实现对专家token的细粒度学习,从而保留在策略探索能力并缓解离策略数据带来的干扰。我们在多个广泛使用的基准任务上进行了大量实验,实证表明CHORD能够实现稳定且高效的学习过程。通过有效融合离策略专家数据与在策略探索,CHORD相较基线方法表现出显著提升。我们已开源实现代码,地址为https://github.com/modelscope/Trinity-RFT/tree/main/examples/mix_chord,以促进相关领域的进一步研究。


13. ViExam: Are Vision Language Models Better than Humans on Vietnamese

Multimodal Exam Questions?

作者: Vy Tuong Dang, An Vo, Quang Tau, Duc Dm, Daeyoung Kim

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-19 | 👍 点赞数: 3

摘要:

ViExam:视觉语言模型在越南语多模态考试问题上的表现是否优于人类?

视觉语言模型(Vision Language Models, VLMs)在英文多模态任务中展现出卓越的能力,但其在低资源语言以及真实世界多模态教育内容上的表现仍 largely 未被探索。本研究测试了 VLMs 在越南语教育评估中的表现,探讨主要基于英文数据训练的 VLMs 是否能够处理现实中的跨语言多模态推理任务。我们提出了 ViExam,一个包含 2,548 道多模态问题的基准测试,首次全面评估 VLMs 在越南语考试中的能力。我们发现,当前最先进的 VLMs 在包括数学、物理、化学、生物、地理、驾驶考试和智商测试在内的 7 个学术领域中,平均准确率仅为 57.74%,而开源模型的平均准确率为 27.70%。大多数 VLMs 的表现低于普通人类考生平均水平(66.54%),仅有 o3 这一具备推理能力的 VLM 超过了人类平均表现(74.07%),但仍显著低于人类最佳表现(99.60%)。在保持越南语内容的前提下,使用英文指令进行跨语言提示未能提升性能,反而使最先进 VLMs 的准确率下降了 1 个百分点。人机协同可以在一定程度上提升 VLM 表现,带来 5 个百分点的提升。代码和数据可在以下链接获取:https://vi-exam.github.io。


14. FLARE: Fast Low-rank Attention Routing Engine

作者: Vedant Puri, Aditya Joglekar, Kevin Ferguson, Yu-hsuan Chen, Yongjie Jessica Zhang, Levent Burak Kara

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-18 | 👍 点赞数: 3

摘要:

摘要:自注意力机制的平方复杂度限制了其在大规模非结构化网格上的适用性和可扩展性。我们提出了一种线性复杂度的自注意力机制——快速低秩注意力路由引擎(Fast Low-rank Attention Routing Engine, FLARE),其通过固定长度的潜在序列进行注意力路由。每个注意力头通过将输入序列投影到长度为M(M远小于N)的潜在序列上,从而在N个token之间执行全局通信,该过程使用可学习的查询token实现。通过在注意力机制中引入瓶颈序列,FLARE学习出一种低秩形式的注意力,其计算成本为O(NM)。FLARE不仅能够扩展到前所未有的问题规模,而且在多种基准测试中相较于当前最先进的偏微分方程(PDE)神经代理模型表现出更优的准确性。我们还发布了一个新的增材制造数据集以推动后续研究。代码请访问:https://github.com/vpuri3/FLARE.py。


15. Dissecting Tool-Integrated Reasoning: An Empirical Study and Analysis

作者: Yufeng Zhao, Junnan Liu, Hongwei Liu, Dongsheng Zhu, Yuan Shen, Songyang Zhang, Kai Chen

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-21 | 👍 点赞数: 1

摘要:

大型语言模型(Large Language Models, LLMs)通过思维链(chain-of-thought, CoT)推理等方法在推理任务中取得了显著进展。然而,它们在需要精确计算的任务中往往表现不足。工具集成推理(Tool-Integrated Reasoning, TIR)通过将外部工具引入推理过程,为这一问题提供了潜在的解决方案。然而,TIR在提升LLMs推理能力方面的泛化性仍不明确。此外,TIR是否真正改善了模型的推理行为并帮助模型进行思考仍有待研究。为此,我们提出了ReasonZoo,一个涵盖九种多样化推理类别的综合性基准,用于评估TIR在多个领域中的有效性。此外,我们还提出了两个新的评估指标:性能感知成本(Performance-Aware Cost, PAC)和性能-成本曲线下的面积(Area Under the Performance-Cost Curve, AUC-PCC),用于衡量推理效率。我们的实证研究表明,启用TIR的模型在数学和非数学任务中均一致优于未启用TIR的模型。进一步地,TIR提升了推理效率,这体现在PAC和AUC-PCC指标的改善上,表明模型减少了过度思考,推理过程更加高效。这些发现强调了TIR在多个领域中的通用优势及其在提升LLMs复杂推理能力方面的潜力。


16. Leuvenshtein: Efficient FHE-based Edit Distance Computation with Single

Bootstrap per Cell

作者: Wouter Legiest, Jan-Pieter D'Anvers, Bojan Spasic, Nam-Luc Tran, Ingrid Verbauwhede

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-20 | 👍 点赞数: 1

摘要:

本文提出了一种在全同态加密(Fully Homomorphic Encryption, FHE)框架下计算Levenshtein(编辑)距离的新方法,特别针对第三代FHE方案如TFHE。编辑距离计算在金融和基因组学等多个领域具有广泛应用,例如DNA序列比对。我们引入了一种优化算法,称为Leuvenshtein,显著降低了计算成本。该算法特别减少了每计算单元所需的可编程自举(programmable bootstrap, PBS)操作数量,将传统Wagner-Fisher算法所需的约94次操作降低至仅1次。此外,我们提出了一种高效的字符等值检查方法,将ASCII字符比较减少到仅需2次PBS操作。最后,我们探讨了在服务器端输入字符串之一未加密的情况下,通过预处理进一步提升性能的潜力。与目前最佳的TFHE实现相比,我们的Leuvenshtein算法性能最高可提升278倍,与优化后的Wagner-Fisher算法相比,性能最高可提升39倍。此外,当服务器端可以对未加密输入进行离线预处理时,还可额外获得3倍的加速效果。


17. Local Scale Equivariance with Latent Deep Equilibrium Canonicalizer

作者: Md Ashiqur Rahman, Chiao-An Yang, Michael N. Cheng, Lim Jun Hao, Jeremiah Jiang, Teck-Yian Lim, Raymond A. Yeh

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-19 | 👍 点赞数: 1

摘要:

尺度变化是计算机视觉中的一个基本挑战。同一类别的物体可能具有不同的尺寸,且其感知尺寸还会受到与相机距离的影响。这些变化是针对物体局部的,即在同一图像中,不同物体的尺寸可能以不同的方式变化。为有效处理尺度变化,我们提出了一种深度平衡规范化器(Deep Equilibrium Canonicalizer, DEC),以提升模型的局部尺度等变性。DEC可以方便地集成到现有的网络架构中,并可适配于预训练模型。值得注意的是,我们在具有挑战性的ImageNet基准测试中表明,DEC在四个流行的预训练深度网络(如ViT、DeiT、Swin和BEiT)上均提升了模型性能和局部尺度一致性。我们的代码可在https://github.com/ashiq24/local-scale-equivariance获取。


18. mSCoRe: a Multilingual and Scalable Benchmark for Skill-based

Commonsense Reasoning

作者: Nghia Trung Ngo, Franck Dernoncourt, Thien Huu Nguyen

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-13 | 👍 点赞数: 1

摘要:

mSCoRe: 一种基于技能的多语言可扩展常识推理基准

近年来,推理增强型大语言模型(LLMs)在复杂推理任务中展现出卓越的能力。然而,这些模型如何利用不同的人类推理技能仍缺乏深入研究,尤其是在涉及多种语言和文化日常知识的多语言常识推理方面。为填补这一空白,我们提出了一个基于技能的多语言可扩展常识推理基准(mSCoRe)。

我们的基准测试包含三个关键组成部分,旨在系统评估LLMs的推理能力:(1) 一种新的推理技能分类法,支持对模型推理过程进行细粒度分析;(2) 一个专为常识推理评估定制的高效数据合成流程;(3) 一个复杂度可扩展框架,使任务难度能够随着LLMs能力的未来发展而动态调整。在八种不同规模和训练方法的最先进LLMs上进行的大量实验表明,mSCoRe对当前模型仍具有显著挑战性,特别是在更高复杂度水平下。我们的结果揭示了这些推理增强型模型在处理细微的多语言通用常识和文化常识时的局限性。此外,我们还对模型的推理过程进行了详细分析,为未来提升多语言常识推理能力提供了研究方向。


19. Refining Contrastive Learning and Homography Relations for Multi-Modal

Recommendation

作者: Shouxing Ma, Yawen Zeng, Shiqing Wu, Guandong Xu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-19

摘要:

多模态推荐系统致力于利用物品丰富的模态信息(即图像和文本描述)以提升推荐性能。当前的方法借助图神经网络强大的结构建模能力已取得了显著的成功。然而,这些方法在现实场景中常常受到数据稀疏性的限制。尽管对比学习和同质图(homography,即同质图结构)被用于应对数据稀疏的挑战,现有方法仍然存在两个主要局限性:1)简单的多模态特征对比无法生成有效的表征,导致模态共享特征中存在噪声,并丢失模态独有特征中的有价值信息;2)缺乏对用户兴趣与物品共现之间的同质图关系的探索,导致用户与物品之间交互的挖掘不充分。为了解决上述局限性,我们提出了一种新颖的REfining multi-modAl contRastive learning and hoMography relations(REARM)框架。具体而言,我们通过引入元网络和正交约束策略来完善多模态对比学习,从而过滤模态共享特征中的噪声,并保留模态独有特征中与推荐相关的有效信息。为了有效挖掘同质图关系,我们将新构建的用户兴趣图和物品共现图与现有的用户共现图和物品语义图相结合,共同用于图学习。在三个真实世界数据集上的大量实验表明,REARM优于多种最先进的基线方法。我们的可视化结果进一步展示了REARM在区分模态共享特征和模态独有特征方面的改进效果。代码已公开:https://github.com/MrShouxingMa/REARM。