每日论文 - 2025年09月22日
论文总数: 15
1. RPG: A Repository Planning Graph for Unified and Scalable Codebase
Generation
作者: Jane Luo, Xin Zhang, Steven Liu, Jie Wu, Yiming Huang, Yangyu Huang, Chengyu Yin, Ying Xin, Jianfeng Liu, Yuefeng Zhan, Hao Sun, Qi Chen, Scarlett Li, Mao Yang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-19 | 👍 点赞数: 115
摘要:
论文标题:RPG:一种用于统一且可扩展代码库生成的仓库规划图
中文摘要:
大型语言模型在函数级和文件级代码生成方面表现出色,但从零开始生成完整的代码仓库仍是一个根本性挑战。这一过程需要在提案阶段和实现阶段之间进行连贯且可靠的规划,而自然语言由于其模糊性和冗长性,难以准确表达复杂的软件结构。为解决这一问题,我们提出了仓库规划图(Repository Planning Graph, RPG),这是一种持久化的表示形式,通过在一个图结构中编码功能能力、文件结构、数据流和函数,实现了提案层与实现层规划的统一。RPG 用明确的蓝图替 代了模糊的自然语言,支持长视野的规划以及可扩展的代码仓库生成。
基于 RPG,我们开发了 ZeroRepo——一种由图驱动的从零生成代码仓库的框架。该框架分为三个阶段:首先进行提案级规划,随后是实现级细化以构建图结构,最后通过图引导的代码生成并结合测试验证完成输出。为了评估这一方法,我们构建了 RepoCraft 基准数据集,包含六个真实世界项目的 1,052 个任务。在 RepoCraft 上的实验结果显示,ZeroRepo 生成的仓库平均接近 36K 行代码,约为最强基线方法(Claude Code)的 3.9 倍,其他基线方法的约 64 倍。ZeroRepo 实现了 81.5% 的功能覆盖率和 69.7% 的通过率,分别比 Claude Code 高出 27.3 和 35.8 个百分点。进一步分析表明,RPG 能够建模复杂的依赖关系,通过近似线性扩展支持逐步精细化的规划,并增强大语言模型对代码仓库的理解,从而加快智能代理在仓库中的定位能力。
2. MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid
Vision Tokenizer
作者: Yanghao Li, Rui Qian, Bowen Pan, Haotian Zhang, Haoshuo Huang, Bowen Zhang, Jialing Tong, Haoxuan You, Xianzhi Du, Zhe Gan, Hyunjik Kim, Chao Jia, Zhenbang Wang, Yinfei Yang, Mingfei Gao, Zi-Yi Dou, Wenze Hu, Chang Gao, Dongxu Li, Philipp Dufter, Zirui Wang, Guoli Yin, Zhengdong Zhang, Chen Chen, Yang Zhao, Ruoming Pang, Zhifeng Chen
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-19 | 👍 点赞数: 48
摘要:
论文标题:MANZANO:一种具有混合视觉分词器的简单且可扩展的统一多模态模型
中文摘要:
能够同时理解与生成视觉内容的统一多模态大语言模型(LLMs)具有巨大的潜力。然而,现有的开源模型通常在这两类能力之间面临性能权衡的问题。本文提出了 Manzano,一种简单且可扩展的统一框架,通过结合混合图像分词器与精心设计的训练策略,显著缓解了这一矛盾。该框架采用单一共享的视觉编码器,驱动两个轻量级适配器,分别生成用于图像到文本理解的连续嵌入和用于文本到图像生成的离散标记,并将其置于统一的语义空间中。一个统一的自回归大语言模型负责预测以文本和图像标记形式表示的高层语义,随后由一个辅助的扩散解码器将图像标记转换为像素。该架构结合在理解和生成数据上的统一训练策略,实现了两种能力的可扩展联合学习。Manzano 在统一模型中达到了最先进的性能,并且在多项任务上可与专用模型相媲美,尤其在富含文本的评估场景中表现突出。我们的实验研究表明,不同任务间的冲突极小,且随着模型规模的扩大持续获得性能提升,验证了我们采用混合分词器的设计选择的有效性。
3. Latent Zoning Network: A Unified Principle for Generative Modeling,
Representation Learning, and Classification
作者: Zinan Lin, Enshu Liu, Xuefei Ning, Junyi Zhu, Wenyu Wang, Sergey Yekhanin
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-19 | 👍 点赞数: 45
摘要:
论文标题:潜在区域网络:一种统一的生成建模、表示学习与分类框架
中文摘要:
生成建模、表示学习和分类是机器学习(ML)中的三个核心问题,然而当前最先进的(SoTA)解决方案在很大程度上仍是相互分离的。本文提出一个关键问题:是否存在一种统一的原则,能够同时解决这三类任务?这种统一性有望简化机器学习流程,并促进不同任务之间的协同效应。为此,我们提出了潜在区域网络(Latent Zoning Network, LZN),作为实现这一目标的初步尝试。LZN的核心思想是构建一个共享的高斯潜在空间,用于编码所有任务的信息。每种数据类型(例如图像、文本、标签)都配备一个编码器,将样本映射到互不重叠的潜在区域(latent zones),以及一个解码器,将潜在表示重构回原始数据空间。各类机器学习任务被表达为这些编码器与解码器的组合:例如,基于标签条件的图像生成使用标签编码器和图像解码器;图像嵌入仅使用图像编码器;而分类任务则结合图像编码器与标签解码器。我们在三个复杂度递增的场景中验证了LZN的潜力:(1)增强现有模型(图像生成):当与当前最先进的Rectified Flow模型结合时,LZN在不修改训练目标的前提下,将CIFAR10数据集上的FID分数从2.76提升至2.59;(2)独立完成任务(表示学习):LZN无需依赖辅助损失函数即可实现无监督表示学习,在ImageNet上的下游线性分类任务中,性能分别超过经典的MoCo和SimCLR方法9.3%和0.2%;(3)同时处理多任务(联合生成与分类):通过集成图像与标签的编码器/解码器,LZN天然支持生成与分类的联合建模,在CIFAR10上同时提升了FID指标并达到了最先进的分类精度。代码与预训练模型已公开发布于 https://github.com/microsoft/latent-zoning-networks,项目主页为 https://zinanlin.me/blogs/latent_zoning_networks.html。
4. SPATIALGEN: Layout-guided 3D Indoor Scene Generation
作者: Chuan Fang, Heng Li, Yixun Liang, Jia Zheng, Yongsen Mao, Yuan Liu, Rui Tang, Zihan Zhou, Ping Tan
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-18 | 👍 点赞数: 24
摘要:
论文标题:SPATIALGEN:基于布局引导的3D室内场景生成
中文摘要:
构建高保真的3D室内环境模型对于设计、虚拟现实和机器人等应用至关重要。然而,人工3D建模仍然耗时且劳动密集。尽管生成式人工智能的最新进展已实现了自动化的场景合成,但现有方法在视觉质量、多样性、语义一致性和用户可控性之间的平衡方面仍面临挑战。其中一个主要瓶颈在于缺乏针对该任务的大规模高质量数据集。为填补这一空白,我们提出一个全面的合成数据集,包含12,328个结构化标注场景、57,440个房间以及470万张照片级真实的2D渲染图像。基于该数据集,我们提出了SpatialGen——一种新颖的多视角多模态扩散模型,能够生成逼真且语义一致的3D室内场景。给定一个3D布局和一张参考图像(可由文本提示生成),我们的模型能够从任意视角合成外观(彩色图像)、几何(场景坐标图)和语义(语义分割图)信息,同时保持跨模态的空间一致性。实验结果表明,SpatialGen在各项指标上均优于先前方法。我们已将数据和模型开源,以支持学术社区,推动室内场景理解与生成领域的发展。
5. BaseReward: A Strong Baseline for Multimodal Reward Model
作者: Yi-Fan Zhang, Haihua Yang, Huanyu Zhang, Yang Shi, Zezhou Chen, Haochen Tian, Chaoyou Fu, Haotian Wang, Kai Wu, Bo Cui, Xu Wang, Jianfei Pan, Haotian Wang, Zhang Zhang, Liang Wang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-19 | 👍 点赞数: 21
摘要:
论文标题:BaseReward:一种用于多模态奖励模型的强基线方法
中文摘要:
多模态大语言模型(MLLMs)的快速发展使得将其与人类偏好对齐成为一项关键挑战。奖励模型(RMs)是实现这一目标的核心技术,但在学术界和工业界目前均缺乏构建先进多模态奖励模型(MRMs)的系统性指导。本文通过全面的实验分析,旨在为构建高性能MRMs提供一份清晰的“配方”。我们系统地研究了MRM开发流程中的每一个关键组件,包括奖励建模范式(如Naive-RM、基于评论者Critic的RM和生成式Generative RM)、奖励头架构、训练策略、数据构建(涵盖十余个多模态及纯文本偏好数据集)、主干模型与模型规模,以及集成方法。
基于这些实验发现,我们提出了BaseReward——一种强大且高效的多模态奖励建模基线方法。BaseReward采用简洁而有效的架构,以Qwen2.5-VL为主干模型,配备经过优化的双层奖励头,并在精心筛选的高质量多模态与纯文本偏好数据混合集上进行训练。实验结果表明,BaseReward在多个主流基准(如MM-RLHF-Reward Bench、VL-Reward Bench和Multimodal Reward Bench)上均取得了新的最先进性能,超越了以往的模型。此外,为了验证其在静态基准之外的实际应用价值,我们将BaseReward集成到一个真实的强化学习流程中,成功提升了MLLM在多种感知、推理和对话任务上的表现。本工作不仅提供了一个顶级的多模态奖励模型,更重要的是,为社区提供了可复现、经实证支持的指南,助力下一代MLLMs构建更加鲁棒的奖励模型。
6. A Vision-Language-Action-Critic Model for Robotic Real-World
Reinforcement Learning
作者: Shaopeng Zhai, Qi Zhang, Tianyi Zhang, Fuxian Huang, Haoran Zhang, Ming Zhou, Shengzhe Zhang, Litao Liu, Sixu Lin, Jiangmiao Pang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-19 | 👍 点赞数: 18
摘要:
论文标题:一种用于机器人真实世界强化学习的视觉-语言-动作-评论家模型
中文摘要:
基于视觉-语言-动作(VLA)模型的机器人真实世界强化学习(RL)受限于稀疏且依赖人工设计的奖励信号以及低效的探索过程。本文提出VLAC,一种建立在InternVL基础上、在大规模异构数据集上训练的通用过程奖励模型。给定成对的观测结果和语言目标,VLAC能够输出密集的进展增量(progress delta)和任务完成信号(done signal),从而消除对任务特定奖励函数的手动设计,并支持在未见过的任务与环境中进行一次性的上下文内迁移。VLAC在视觉-语言数据集上进行训练,以增强其感知、对话与推理能力;同时结合机器人与人类轨迹数据,以实现动作生成与进展估计的具身化建模。此外,通过构建大量负样本和语义不匹配样本,模型进一步增强了对无关提示的拒绝能力,以及对性能退化或停滞状态的检测能力。通过提示控制,单个VLAC模型可交替生成奖励信号和动作指令,从而统一了评论家(critic)与策略(policy)功能。我们将该模型部署在一个异步的真实世界强化学习循环中,并引入分级的人在回路协议(包括离线演示回放、返回并探索、人类引导探索),以加速探索过程并稳定初期学习。在四个不同的真实世界操作任务中,VLAC在200个真实交互回合内将任务成功率从约30%提升至约90%;进一步结合人在回路干预后,样本效率再提升50%,最终成功率可达100%。
7. Lynx: Towards High-Fidelity Personalized Video Generation
作者: Shen Sang, Tiancheng Zhi, Tianpei Gu, Jing Liu, Linjie Luo
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-19 | 👍 点赞数: 12
摘要:
论文标题:Lynx:迈向高保真个性化视频生成
中文摘要:
本文提出Lynx,一种基于单张输入图像实现高保真个性化视频合成的模型。Lynx建立在一个开源的扩散变换器(Diffusion Transformer, DiT)基础模型之上,引入了两个轻量级适配器以确保身份一致性。其中,ID-适配器(ID-adapter)采用Perceiver Resampler将ArcFace提取的人脸嵌入向量转换为紧凑的身份令牌用于条件控制;Ref-适配器(Ref-adapter)则通过一条固定的参考路径集成密集的VAE特征,并利用交叉注意力机制将细粒度细节注入至所有Transformer层中。这些模块协同工作,在保持时间连贯性和视觉真实感的同时,实现了鲁棒的身份保持能力。在包含40个受试者和20条无偏提示语所构成的精选基准数据集上进行了评估,共生成800个测试案例。实验结果表明,Lynx在面部相似度、提示跟随能力以及视频质量方面均表现出优越性能,显著推动了个 性化视频生成技术的发展。
8. BTL-UI: Blink-Think-Link Reasoning Model for GUI Agent
作者: Shaojie Zhang, Ruoceng Zhang, Pei Fu, Shaokang Wang, Jiahui Yang, Xin Du, Shiqi Cui, Bin Qin, Ying Huang, Zhenbo Luo, Jian Luan
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-19 | 👍 点赞数: 10
摘要:
论文标题:BTL-UI:面向GUI智能体的“眨眼-思考-连接”推理模型
中文摘要:
在人工智能驱动的人机图形界面(GUI)交互自动化领域,尽管多模态大语言模型与强化学习微调技术已取得快速进展,但仍存在一个根本性挑战:现有方法的交互逻辑与人类自然的GUI交流模式存在显著偏差。为填补这一空白,本文提出“眨眼-思考-连接”(Blink-Think-Link, BTL),一种受大脑启发的人机GUI交互框架,旨在模拟用户与图形界面之间的认知过程。该系统将交互过程分解为三个符合生物学原理的阶段:(1)眨眼(Blink)——快速检测并关注屏幕上相关区域,类比于人眼的扫视运动;(2)思考(Think)——高层级的推理与决策过程,模拟人类的认知规划机制;(3)连接(Link)——生成可执行命令以实现精确的动作控制,模仿人类的动作选择机制。
此外 ,我们为BTL框架引入两项关键技术革新:(1)眨眼数据生成(Blink Data Generation)——一种专为“眨眼”阶段数据优化设计的自动化标注流程;(2)BTL奖励机制(BTL Reward)——首个基于规则的奖励机制,能够同时依据任务执行过程和最终结果驱动强化学习。基于该框架,我们构建了一个名为BTL-UI的GUI智能体模型,在涵盖静态GUI理解与动态交互任务的综合基准测试中,始终展现出领先的性能表现。实验结果充分验证了该框架在开发先进GUI智能体方面的有效性与优越性。
9. RGB-Only Supervised Camera Parameter Optimization in Dynamic Scenes
作者: Fang Li, Hao Zhang, Narendra Ahuja
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-18 | 👍 点赞数: 5
摘要:
论文标题:仅使用RGB视频监督的动态场景相机参数优化方法
中文摘要:
尽管COLMAP长期以来一直是静态场景中相机参数优化的主流方法,但在应用于动态场景时,其性能受限于较长的运行时间以及对真实运动掩码(ground truth motion masks)的依赖。许多研究尝试通过引入更多监督先验信息来改进该方法,例如真实的焦距、运动掩码、三维点云、相机位姿和度量深度等,但这些信息在日常拍摄的RGB视频中通常难以获取。本文提出一种全新的方法,仅利用单段RGB视频作为监督信号,实现对动态场景下相机参数更准确且高效的优化。本方法包含三个关键组成部分:(1)基于图像块的跟踪滤波器(Patch-wise Tracking Filters),用于在RGB视频序列中建立鲁棒且最大程度稀疏的铰链式关联关系;(2)抗外点联合优化(Outlier-aware Joint Optimization),通过自适应降低运动物体等异常值的权重,实现高效相机参数优化,无需依赖任何运动先验;(3)两阶段优化策略(Two-stage Optimization Strategy),通过在损失函数中权衡Softplus边界与凸极小值,提升优化过程的稳定性与速度。我们对估计得到的相机参数进行了视觉和数值上的评估。为进一步验证精度,我们将估计结果输入到一种4D重建方法中,并评估生成的三维场景以及渲染出的二维RGB图像和深度图。我们在四个真实世界数据集(NeRF-DS、DAVIS、iPhone 和 TUM-dynamics)以及一个合成数据集(MPI-Sintel)上进行了实验,结果表明,仅以单段RGB视频作为唯一监督信号的情况下,我们的方法在相机参数估计方面具有更高的效率和精度。
10. Do You Hear What I Mean? Quantifying the Instruction-Perception Gap in
Instruction-Guided Expressive Text-To-Speech Systems
作者: Yi-Cheng Lin, Huang-Cheng Chou, Tzu-Chieh Wei, Kuan-Yu Chen, Hung-yi Lee
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-17 | 👍 点赞数: 2
摘要:
论文标题:你听懂我的意思了吗?量化指令引导型表现性文本转语音系统中的指令-感知差异
中文摘要:
指令引导型文本转语音(ITTS)技术使用户能够通过自然语言提示来控制语音生成,相较于传统TTS提供了更直观的交互方式。然而,用户所给的风格指令与听者实际感知之间的一致性仍鲜有研究。本文首先对ITTS在两个表现性维度(程度副词和情感强度等级)上的可控性进行了感知分析,并收集了人类对说话人年龄和词级别重音等属性的评分。为了全面揭示指令与感知之间的差距,我们构建了一个包含大规模人工评估的数据集,命名为“表现性语音控制”(Expressive VOice Control, E-VOC)语料库。此外,我们发现:(1)gpt-4o-mini-tts 是目前最可靠的ITTS模型,在指令与生成语音的声学特征匹配度方面表现最佳;(2)所分析的5个ITTS系统在生成语音时普遍倾向于输出成人声音,即使指令明确要求使用儿童或老年人的声音;(3)细粒度控制仍是一项重大挑战,表明现有大多数ITTS系统在理解细微不同的属性指令方面仍有较大的改进空间。
11. Video2Roleplay: A Multimodal Dataset and Framework for Video-Guided
Role-playing Agents
作者: Xueqiao Zhang, Chao Zhang, Jingtao Xu, Yifan Zhu, Xin Shi, Yi Yang, Yawei Luo
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-17 | 👍 点赞数: 2
摘要:
论文标题:Video2Roleplay:一种用于视频引导角色扮演智能体的多模态数据集与框架
中文摘要:
角色扮演智能体(Role-playing Agents, RPAs)因其能够模拟沉浸式且具有交互性的虚拟角色而受到越来越多的关注。然而,现有方法主要依赖于静态的角色设定,忽视了人类所具备的动态感知能力。为弥补这一不足,本文提出“动态角色设定”的概念,将视频模态引入角色扮演智能体中。为此,我们构建了Role-playing-700k,一个大规模、高质量的数据集,包含6万个视频及与其对应的70万段对话。基于该数据集,我们设计 了一个完整的RPA框架,结合自适应时间采样策略,并融合动态与静态角色设定表征。具体而言,动态角色设定通过自适应地采样视频帧,并按时间顺序输入大语言模型(LLM)实现;而静态角色设定则包括两部分:(1) 在微调阶段使用的训练视频中的角色对话,以及 (2) 在推理阶段由输入视频生成的摘要上下文。这种联合建模方式使角色扮演智能体能够生成更丰富、更准确的回应。此外,我们提出了一套涵盖八个维度的综合评估方法。实验结果验证了所提框架的有效性,凸显了动态角色设定在角色扮演智能体发展中的重要作用。
12. Audio-Conditioned Diffusion LLMs for ASR and Deliberation Processing
作者: Mengqi Wang, Zhan Liu, Zengrui Jin, Guangzhi Sun, Chao Zhang, Philip C. Woodland
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-20 | 👍 点赞数: 1
摘要:
论文标题:用于语音识别与精修处理的音频条件扩散大语言模型
中文摘要: 基于扩散的大语言模型(DLLM)近年来作为自回归解码器的一种替代方案,受到越来越多的关注。在本研究中,我们探讨了使用基于扩散的大语言模型LLaDA进 行自动语音识别(ASR)的实证效果。我们首先将其作为Whisper-LLaMA转录结果的一个外部精修(deliberation)处理模块进行研究。通过利用LLaDA的双向注意力机制和去噪能力,我们探索了随机掩码、低置信度掩码以及半自回归策略,实验表明,Whisper-LLaDA相较于基线系统显著降低了词错误率(WER)。在LibriSpeech数据集上,最优级联系统在test-clean/test-other上的词错误率分别为2.25%和4.94%,在test-other子集上相较Whisper-LLaMA基线实现了12.3%的相对性能提升。相比之下,未引入声学特征的纯文本LLaDA模型未能提升识别准确率,凸显了音频条件嵌入(audio-conditioned embeddings)的重要性。我们进一步评估了将Whisper-LLaDA作为独立解码器在基于扩散和半自回归解码模式下的ASR性能。大多数实验配置的推理速度均快于Whisper-LLaMA基线,尽管识别准确率略有下降。这些发现为扩散型大语言模型在语音识别中的应用提供了实证视角,并指出了未来有前景的改进方向。
13. Towards Human-like Multimodal Conversational Agent by Generating
Engaging Speech
作者: Taesoo Kim, Yongsik Jo, Hyunmin Song, Taehwan Kim
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-18 | 👍 点赞数: 1
摘要:
论文标题:通过生成吸引人的语音实现类人多模态对话代理
中文摘要:
人类的交流包含语言、语音和视觉线索,每种模态都提供互补的信息。例如,语音所传达的情绪或语调是纯文本无法完全捕捉的。尽管当前的多模态大语言模型(multimodal LLMs)主要关注从多种输入中生成文本回复,但在生成自然且富有表现力的语音方面仍缺乏足够重视。本文提出一种类人对话代理,能够根据对话情绪和回应风格生成具有表现力的语音响应。为实现这一目标,我们构建了一个全新的面向语音的多感官对话数据集(MultiSensory Conversation dataset),使代理能够生成更自然的语音输出。在此基础上,我们提出一种基于多模态大语言模型的方法,用于同时生成文本回复和语音描述信息,进而合成包含副语言信息(paralinguistic information)的语音。实验结果表明,在对话中融合视觉与音频模态有助于生成更具吸引力的语音。源代码已公开于 https://github.com/kimtaesu24/MSenC
14. WhisTLE: Deeply Supervised, Text-Only Domain Adaptation for Pretrained
Speech Recognition Transformers
作者: Akshat Pandey, Karun Kumar, Raphael Tang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-12 | 👍 点赞数: 1
摘要:
论文标题:WhisTLE:面向预训练语音识别Transformer的深度监督、纯文本域自适应方法
中文摘要:
诸如Whisper之类的预训练自动语音识别(ASR)模型表现优异,但仍需进行领域自适应以应对未见词汇和特定语用表达。在许多实际场景中,收集语音数据并不现实,因此亟需仅依赖文本的自适应方法。本文提出WhisTLE,一种针对预训练编码器-解码器ASR模型的深度监督、纯文本域自适应方法。WhisTLE通过训练一个变分自编码器(VAE)来建模文本对应的编码器输出,并利用所学习的文本到隐空间的编码器对解码器进行微调,可选择性地结合文本转语音(TTS)自适应策略。在推理阶段,恢复使用原始编码器,因而不引入任何额外的运行时开销。在四个跨领域数据集和四种ASR模型上的实验表明,结合TTS的WhisTLE方法相较于仅使用TTS自适应的方法,相对降低词错误率(WER)12.3%,并在32种场景中的27种上优于所有非WhisTLE基线方法。
15. Ask-to-Clarify: Resolving Instruction Ambiguity through Multi-turn
Dialogue
作者: Xingyao Lin, Xinghao Zhu, Tianyi Lu, Sicheng Xie, Hui Zhang, Xipeng Qiu, Zuxuan Wu, Yu-Gang Jiang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-09-18
摘要:
论文标题:Ask-to-Clarify:通过多轮对话解决指令歧义
中文摘要:
具身智能体的最终目标是构建能够与人类协作的伙伴,而不仅仅是被动执行指令的工具。这要求智能体具备沟通、协调以及根据人类反馈调整行为的能力。近年来,视觉语言动作模型(VLA)的发展为实现这一目标提供了可能路径。然而,当前大多数基于VLA的具身智能体仍以单向模式运行:即接收指令后直接执行,缺乏反馈交互机制。这种模式在现实场景中往往失效,因为人类指令通常存在歧义。本文提出“Ask-to-Clarify”框架以应对该问题。该框架首先通过多轮对话主动提问,澄清模糊指令;随后端到端地生成底层动作。具体而言,Ask-to-Clarify框架包含两个核心组件:一个用于协作的视觉语言模型(VLM)和一个用于动作生成的扩散模型(diffusion model)。我们还引入了一个连接模块,该模块根据VLM的输出为扩散模型生成条件信号,并通过指令对观测信息进行调整,从而构建可靠的生成条件。我们采用两阶段的知识隔离训练策略来训练该框架:第一阶段,使用解决歧义的对话数据对协作组件进行微调,使其具备处理指令歧义的能力;第二阶段,在冻结协作组件的前提下集成动作生成组件,从而在保留交互能力的同时,单独优化扩散模型的动作生成性能。该训练策略确保了框架先能提问、再生成动作的能力。在推理过程中,一个信号检测器充当路由角色,帮助框架在“提问” 与“执行动作”之间动态切换。我们在8个真实世界任务中对Ask-to-Clarify框架进行了评估,结果表明其性能优于现有的最先进VLA方法。实验结果表明,我们提出的框架及训练策略为实现真正协作式的具身智能体提供了一条可行路径。