跳到主要内容

每日论文 - 2025年09月08日

论文总数: 12

1. Why Language Models Hallucinate

作者: Adam Tauman Kalai, Ofir Nachum, Santosh S. Vempala, Edwin Zhang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-04 | 👍 点赞数: 153

摘要:

像面对难题的学生一样,大型语言模型在不确定时有时会进行猜测,产生看似合理但错误的陈述,而不是承认不确定性。这类“幻觉”(hallucinations)即使在最先进的系统中依然存在,并削弱了用户信任。我们认为语言模型之所以产生幻觉,是因为训练和评估过程更倾向于奖励猜测行为,而非鼓励承认不确定性,并且我们分析了现代训练流程中幻觉产生的统计原因。幻觉并不神秘——它们本质上是二分类中的错误结果。如果错误陈述无法与事实区分,那么预训练语言模型中就会因自然的统计压力而产生幻觉。我们进一步指出,幻觉持续存在是由于大多数评估的评分方式所致——语言模型被优化为善于应试者,而在不确定时进行猜测反而提升了测试表现。这种对不确定回答进行惩罚的“流行现象”只能通过社会技术手段缓解:修改那些虽不准确但主导排行榜的现有基准的评分方式,而非引入额外的幻觉评估。这一改变或许能引导领域朝着更值得信赖的AI系统发展。


2. Set Block Decoding is a Language Model Inference Accelerator

作者: Itai Gat, Heli Ben-Hamu, Marton Havasi, Daniel Haziza, Jeremy Reizenstein, Gabriel Synnaeve, David Lopez-Paz, Brian Karrer, Yaron Lipman

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-04 | 👍 点赞数: 47

摘要:

摘要:自回归的下一个词预测语言模型提供了强大的能力,但由于推理过程中计算和内存成本高昂,尤其是在解码阶段,其实际部署面临重大挑战。我们提出了一种简单且灵活的范式——集合块解码(Set Block Decoding, SBD),通过在单一架构中整合标准的下一个词预测(Next Token Prediction, NTP)和掩码词预测(Masked Token Prediction, MATP),从而加速生成过程。SBD允许模型并行地采样多个未来词,这些词不必连续,这是与以往加速方法的关键区别。这种灵活性使得可以使用离散扩散文献中的先进求解器,在不牺牲准确性的前提下实现显著加速。SBD无需更改模型结构或引入额外的训练超参数,保持了与精确KV缓存(KV-caching)的兼容性,并可通过微调现有下一个词预测模型实现。通过对Llama-3.1 8B和Qwen-3 8B进行微调,我们证明SBD能够在生成任务中将所需的前向传播次数减少3-5倍,同时实现与等效NTP训练相当的性能。


3. Symbolic Graphics Programming with Large Language Models

作者: Yamei Chen, Haoquan Zhang, Yangyi Huang, Zeju Qiu, Kaipeng Zhang, Yandong Wen, Weiyang Liu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-05 | 👍 点赞数: 44

摘要:

大型语言模型(LLMs)在程序合成方面表现出色,但其生成能够渲染为精确视觉内容的符号图形程序(SGPs)的能力尚未得到充分探索。我们研究了符号图形编程,其目标是从自然语言描述生成一个SGP。该任务还通过提示LLMs生成由SGP渲染的图像,作为了解LLMs如何理解视觉世界的一种视角。在各种SGP中,本文专注于可缩放矢量图形(SVGs)。我们首先考察LLMs生成SGP的程度。为此,我们引入了SGP-GenBench,一个涵盖对象保真度、场景保真度以及组合性(属性绑定、空间关系、数值理解)的全面基准。在SGP-GenBench上,我们发现前沿的专有模型显著优于开源模型,且性能与通用编码能力密切相关。受这一差距的启发,我们旨在提升LLMs生成SGP的能力。我们提出了一种基于可验证奖励的强化学习(RL)方法,其中格式有效性门控确保生成可渲染的SVG,而跨模态奖励通过强大的视觉编码器(例如,用于文本-图像匹配的SigLIP和用于图像-图像匹配的DINO)对齐文本与渲染图像。将该方法应用于Qwen-2.5-7B显著提升了SVG生成的质量和语义准确性,达到了与前沿系统相当的性能。我们进一步分析了训练动态,表明RL诱导了(i)将对象分解为可控基元的更精细结构,以及(ii)提升场景连贯性的上下文细节。我们的结果表明,符号图形编程为跨模态基础提供了精确且可解释的观察视角。


4. LuxDiT: Lighting Estimation with Video Diffusion Transformer

作者: Ruofan Liang, Kai He, Zan Gojcic, Igor Gilitschenski, Sanja Fidler, Nandita Vijaykumar, Zian Wang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-03 | 👍 点赞数: 14

摘要:

LuxDiT:基于视频扩散变换器的光照估计

从单张图像或视频中估计场景光照在计算机视觉与图形学领域仍然是一个长期存在的挑战。基于学习的方法受限于真实HDR环境贴图数据的稀缺性,这类数据采集成本高且多样性有限。尽管近期的生成模型在图像合成方面表现出强大的先验能力,但由于光照估计依赖于间接的视觉线索、需要推断全局(非局部)上下文信息以及需恢复高动态范围输出,该任务依然具有较大难度。我们提出了LuxDiT,一种新颖的数据驱动方法,通过微调视频扩散变换器模型,使其根据视觉输入生成条件化的HDR环境贴图。该模型在包含多种光照条件的大规模合成数据集上进行训练,能够学习从间接视觉线索中推断光照信息,并有效泛化至真实世界场景。为了提升输入与预测环境贴图之间的语义对齐效果,我们采用了一种基于收集的HDR全景图数据集的低秩适应微调策略。我们的方法能够生成准确且包含真实角度高频细节的光照预测结果,在定量与定性评估中均优于现有最先进的技术。


5. WildScore: Benchmarking MLLMs in-the-Wild Symbolic Music Reasoning

作者: Gagan Mundada, Yash Vishe, Amit Namburi, Xin Xu, Zachary Novack, Julian McAuley, Junda Wu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-05 | 👍 点赞数: 11

摘要:

摘要:多模态大语言模型(Multimodal Large Language Models, MLLMs)的最新进展在多种视觉-语言任务中展现出令人印象深刻的能力。然而,它们在多模态符号化音乐领域中的推理能力仍基本未被探索。我们提出了WildScore,这是首个面向真实场景的多模态符号化音乐推理与分析基准测试,旨在评估MLLMs解读真实世界乐谱和回答复杂音乐学问题的能力。WildScore中的每个样本均来源于真实的音乐作品,并配有真实用户生成的问题和讨论,反映了实际音乐分析中的复杂性。为了便于系统评估,我们提出了一种系统化的分类体系,包括高层次和细粒度的音乐学本体。此外,我们将复杂的音乐推理问题建模为多项选择题回答任务,从而实现对MLLMs符号化音乐理解能力的可控且可扩展的评估。基于WildScore对当前最先进的MLLMs进行实证基准测试,揭示了其视觉-符号推理中的有趣模式,展现了MLLMs在符号化音乐推理与分析方面的发展潜力与持续挑战。我们将公开发布该数据集及代码。


6. LatticeWorld: A Multimodal Large Language Model-Empowered Framework for

Interactive Complex World Generation

作者: Yinglin Duan, Zhengxia Zou, Tongwei Gu, Wei Jia, Zhan Zhao, Luyi Xu, Xinzhu Liu, Hao Jiang, Kang Chen, Shuang Qiu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-05 | 👍 点赞数: 9

摘要:

近年来,研究重点 increasingly 聚焦于开发能够模拟复杂现实世界场景的3D世界模型。世界模型在多个领域(如具身智能、自动驾驶、娱乐等)均具有广泛的应用前景。更加逼真的、具备精确物理特性的模拟能够有效缩小仿真与现实之间的差距,并使我们能够便捷地获取关于现实世界的丰富信息。虽然传统的手动建模方法已经能够创建虚拟的3D场景,但现代方法利用先进的机器学习算法进行3D世界生成,最近的研究进展主要集中在可以根据用户指令生成虚拟世界的生成式方法上。本文通过提出LatticeWorld,探索了这一研究方向。LatticeWorld是一种简洁而有效的3D世界生成框架,旨在简化3D环境的工业生产流程。LatticeWorld结合轻量级大语言模型(LLM)(LLaMA-2-7B)与工业级渲染引擎(如Unreal Engine 5)来生成动态环境。我们提出的框架接受文本描述和视觉指令作为多模态输入,能够生成具有动态智能体的大规模交互式3D世界,支持多智能体竞争性交互、高保真物理模拟和实时渲染。我们进行了全面的实验评估,结果表明LatticeWorld在场景布局生成准确性和视觉保真度方面表现优异。此外,与传统手动生产方法相比,LatticeWorld在保持高质量创意输出的同时,实现了超过90倍的工业生产效率提升。我们的演示视频可在https://youtu.be/8VWZXpERR18观看。


7. WinT3R: Window-Based Streaming Reconstruction with Camera Token Pool

作者: Zizun Li, Jianjun Zhou, Yifan Wang, Haoyu Guo, Wenzheng Chang, Yang Zhou, Haoyi Zhu, Junyi Chen, Chunhua Shen, Tong He

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-05 | 👍 点赞数: 5

摘要:

我们提出了WinT3R,一种前馈重建模型,能够在线预测精确的相机位姿和高质量的点云地图。先前的方法在重建质量与实时性能之间存在权衡。为解决这一问题,我们首先引入了一种滑动窗口机制,确保窗口内帧间的信息充分交换,从而在计算量不大的情况下提升几何预测的质量。此外,我们采用了一种紧凑的相机表示方式,并维护一个全局相机token池(camera token pool),在不牺牲效率的前提下增强了相机位姿估计的可靠性。这些设计使WinT3R在多种数据集上的在线重建质量、相机位姿估计和重建速度方面均达到了最先进的性能。 相关代码和模型已公开发布于https://github.com/LiZizun/WinT3R


8. Bootstrapping Task Spaces for Self-Improvement

作者: Minqi Jiang, Andrei Lupu, Yoram Bachrach

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-04 | 👍 点赞数: 5

摘要:

摘要:
在许多任务领域中,进步源于对先前解决方案尝试的反复修订。训练能够在推理过程中可靠地进行序列式自我改进的智能体,是强化学习(Reinforcement Learning, RL)的自然目标。然而,简单的方法通常假设固定的最长迭代次数,这既可能代价高昂,又可能显得武断。我们提出了探索性迭代(Exploratory Iteration, ExIt)——一种自动课程强化学习方法家族,该方法直接利用自我改进任务的递归结构,训练大语言模型(LLMs)在推理时执行多步骤的自我改进,同时仅在最具信息量的单步迭代上进行训练。ExIt通过选择性地采样一个任务情节中遇到的最具信息量的中间、部分历史,进行持续迭代,并将这些起点视为新的自我迭代任务实例,以训练自我改进策略。此外,ExIt可以与显式探索机制结合,以维持更高的任务多样性。在多个领域(包括竞赛数学、多轮工具使用和机器学习工程)中,我们展示了ExIt策略从单个或多个任务实例开始,能够生成在保留任务实例上表现出强大推理时自我改进能力的策略,并能够在超过训练期间所遇到的平均迭代深度的步数预算下,持续迭代以实现更高性能。


9. Behavioral Fingerprinting of Large Language Models

作者: Zehua Pei, Hui-Ling Zhen, Ying Zhang, Zhiyuan Yang, Xing Li, Xianzhi Yu, Mingxuan Yuan, Bei Yu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-02 | 👍 点赞数: 5

摘要:

当前对大语言模型(Large Language Models, LLMs)的基准测试主要关注性能指标,往往无法捕捉到区分它们的细微行为特征。本文提出了一种新的“行为指纹”(Behavioral Fingerprinting)框架,旨在超越传统评估方法,通过构建模型内在认知和交互风格的多维画像来实现更深入的分析。我们利用一套经过精心设计的诊断提示语(Diagnostic Prompt Suite)以及一种创新的自动化评估流程(其中由一个强大的LLM作为中立评判者),对跨越不同能力层级的十八个模型进行了分析。结果揭示了LLM领域的一个关键分化现象:虽然顶级模型在抽象和因果推理等核心能力方面趋于收敛,但在与对齐相关的特性(如谄媚倾向和语义鲁棒性)方面却表现出显著差异。我们还观察到跨模型的默认人格类型聚类(ISTJ/ESTJ),这可能反映了常见的对齐激励机制。综合来看,这表明模型的交互特性并非其规模或推理能力的自然产物,而是特定且高度可变的开发者对齐策略的直接结果。我们的框架提供了一种可重复且可扩展的方法,用于揭示这些深层的行为差异。 项目地址:https://github.com/JarvisPei/Behavioral-Fingerprinting


10. On Robustness and Reliability of Benchmark-Based Evaluation of LLMs

作者: Riccardo Lunardi, Vincenzo Della Mea, Stefano Mizzaro, Kevin Roitero

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-04 | 👍 点赞数: 3

摘要:

关于基于基准测试的LLMs评估的鲁棒性与可靠性研究

大型语言模型(LLMs)的有效性通常通过MMLU、ARC-C或HellaSwag等基准测试进行评估,这些问题以原始措辞呈现,因此采用固定、标准化的格式。然而,实际应用场景中存在语言表达的多样性,要求模型在面对同一问题或查询的不同改写形式时仍能保持有效性。本研究系统地评估了LLMs对基准问题改写后的鲁棒性,并探讨了基于基准测试的评估方法是否能够可靠地衡量模型的能力。我们对六个常见基准测试中的所有问题系统地生成多种改写形式,并测量34种不同规模和性能的最先进LLMs在这些改写后问题上的有效性变化。研究结果表明,尽管LLMs在不同改写输入下的排名相对稳定,但其绝对有效性得分发生了显著变化并出现明显下降。这表明LLMs在应对语言多样性方面存在困难,引发了对其泛化能力和评估方法的担忧。此外,观察到的性能下降挑战了基于基准测试的评估方法的可靠性,说明高基准得分可能无法全面反映模型对实际输入变化的鲁棒性。我们进一步讨论了这些发现对LLMs评估方法的影响,强调需要开发具有鲁棒性意识的基准测试,以更好地反映实际部署场景。


11. MedVista3D: Vision-Language Modeling for Reducing Diagnostic Errors in

3D CT Disease Detection, Understanding and Reporting

作者: Yuheng Li, Yenho Chen, Yuxiang Lai, Jike Zhong, Vanessa Wildman, Xiaofeng Yang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-04 | 👍 点赞数: 3

摘要:

放射诊断错误,包括漏诊、注意力盲区和沟通失误,在临床实践中仍然普遍存在。这些问题通常源于局部异常的遗漏、全局上下文信息的不足以及报告语言的差异性。在三维成像中,这些挑战尤为突出,因为临床医生必须检查每次扫描中的数百张切片。解决这些问题需要具备精确的局部检测能力、全局体素级推理能力以及语义一致的自然语言报告生成能力的系统。然而,现有的三维视觉-语言模型无法同时满足这三个需求,缺乏局部与全局理解的空间推理能力,并且在处理未经整理的放射报告中的语言多样性和噪声方面存在困难。我们提出了MedVista3D,一种多尺度语义增强的视觉-语言预训练框架,用于三维CT分析。为了实现联合疾病检测与整体性解读,MedVista3D在全体积上下文中执行局部与全局的图文对齐,以促进细粒度表征学习。为应对报告语言的多样性,我们应用语言模型重写,并引入放射语义匹配库(Radiology Semantic Matching Bank)以实现语义感知的对齐。MedVista3D在零样本疾病分类、报告检索和医学视觉问答任务中达到了最先进的性能,同时在器官分割和预后预测任务中也表现出良好的迁移能力。代码和数据集将公开发布。


12. U-ARM : Ultra low-cost general teleoperation interface for robot

manipulation

作者: Yanwen Zou, Zhaoye Zhou, Chenyang Shi, Zewei Ye, Junda Huang, Yan Ding, Bo Zhao

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-02 | 👍 点赞数: 3

摘要:

我们提出了U-Arm,这是一种低成本且快速可适应的主从式遥操作框架,旨在与大多数市售机械臂进行交互。我们的系统通过三个结构各异的3D打印主臂实现遥操作,这些主臂共享一致的控制逻辑,从而实现了与多种商业机器人配置的无缝兼容。相比以往的开源主从接口,我们进一步优化了机械设计和伺服选型,使得6-DoF主臂的物料清单(bill of materials, BOM)成本仅为50.5美元,7-DoF版本为56.8美元。为提升可用性,我们通过机械与控制优化的工程方法缓解了控制冗余自由度的常见难题。实验结果表明,在多个操作场景中,与另一种低成本遥操作接口Joycon相比,U-Arm的数据采集效率提高了39%,任务成功率相当。我们已开源三种配置的所有CAD模型,并提供了仿真支持以验证遥操作流程。此外,还开源了使用U-Arm采集的真实环境操作数据。 项目网站为https://github.com/MINT-SJTU/LeRobot-Anything-U-Arm