Skip to main content

每日论文 - 2025年09月01日

论文总数: 19

1. A Survey of Scientific Large Language Models: From Data Foundations to

Agent Frontiers

作者: Ming Hu, Chenglong Ma, Wei Li, Wanghan Xu, Jiamin Wu, Jucheng Hu, Tianbin Li, Guohang Zhuang, Jiaqi Liu, Yingzhou Lu, Ying Chen, Chaoyang Zhang, Cheng Tan, Jie Ying, Guocheng Wu, Shujian Gao, Pengcheng Chen, Jiashi Lin, Haitao Wu, Lulu Chen, Fengxiang Wang, Yuanyuan Zhang, Xiangyu Zhao, Feilong Tang, Encheng Su, Junzhi Ning, Xinyao Liu, Ye Du, Changkai Ji, Cheng Tang, Huihui Xu, Ziyang Chen, Ziyan Huang, Jiyao Liu, Pengfei Jiang, Yizhou Wang, Chen Tang, Jianyu Wu, Yuchen Ren, Siyuan Yan, Zhonghua Wang, Zhongxing Xu, Shiyan Su, Shangquan Sun, Runkai Zhao, Zhisheng Zhang, Yu Liu, Fudi Wang, Yuanfeng Ji, Yanzhou Su, Hongming Shan, Chunmei Feng, Jiahao Xu, Jiangtao Yan, Wenhao Tang, Diping Song, Lihao Liu, Yanyan Huang, Lequan Yu, Bin Fu, Shujun Wang, Xiaomeng Li, Xiaowei Hu, Yun Gu, Ben Fei, Zhongying Deng, Benyou Wang, Yuewen Cao, Minjie Shen, Haodong Duan, Jie Xu, Yirong Chen, Fang Yan, Hongxia Hao, Jielan Li, Jiajun Du, Yanbo Wang, Imran Razzak, Chi Zhang, Lijun Wu, Conghui He, Zhaohui Lu, Jinhai Huang, Yihao Liu, Fenghua Ling, Yuqiang Li, Aoran Wang, Qihao Zheng, Nanqing Dong, Tianfan Fu, Dongzhan Zhou, Yan Lu, Wenlong Zhang, Jin Ye, Jianfei Cai, Wanli Ouyang, Yu Qiao, Zongyuan Ge, Shixiang Tang, Junjun He, Chunfeng Song, Lei Bai, Bowen Zhou

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-28 | 👍 点赞数: 124

摘要:

科学大语言模型(Sci-LLMs)正在改变科学知识在研究中的表示、整合与应用方式,然而其发展受到科学数据复杂特性的深刻影响。本文从数据驱动的视角出发,系统综述了Sci-LLMs的发展,将其重新定义为模型与底层数据基础共同演化的进程。我们提出了统一的科学数据分类体系与科学知识的层次化模型,强调科学语料库相较于通用自然语言处理数据集所面临的多模态、跨尺度与领域特定等差异化挑战。我们系统回顾了近年来的Sci-LLMs,涵盖通用基础模型到多个科学领域的专用模型,并对超过270个预训练/后训练数据集进行了深入分析,揭示了为何Sci-LLMs面临异构、多尺度、不确定性强的数据需求——这些数据要求表示方法能够保持领域不变性并支持跨模态推理。在评估方面,我们分析了超过190个基准数据集,发现评估方式正从静态测试向过程导向与发现导向转变,并采用更先进的评估协议。这些以数据为中心的分析揭示了科学数据发展中长期存在的问题,并探讨了半自动化标注流程与专家验证等新兴解决方案。最后,我们展望了范式转变的方向,即迈向闭环系统,使基于Sci-LLMs的自主智能体能够主动开展实验、验证并持续丰富一个动态演化的知识库。总体而言,本研究为构建可信、持续演进的人工智能(AI)系统提供了路线图,使其能够真正成为加速科学发现的合作伙伴。


2. R-4B: Incentivizing General-Purpose Auto-Thinking Capability in MLLMs

via Bi-Mode Annealing and Reinforce Learning

作者: Jie Jiang, Qi Yang, Bolin Ni, Shiming Xiang, Han Hu, Houwen Peng

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-28 | 👍 点赞数: 102

摘要:

R-4B: 通过双模式退火和强化学习激励MLLMs中的通用自动思考能力

具备逐步思考能力的多模态大语言模型(MLLMs)在解决复杂推理问题方面表现出色。然而,对于无需复杂推理即可解决的简单问题,这种思考过程显得冗余。为了解决这一效率问题,我们提出了R-4B,一种具备自适应决策能力的自动思考MLLM,它能够根据问题复杂度决定是否进行思考。R-4B的核心思想是通过双模式退火机制赋予模型同时具备思考与非思考能力,并采用双模式策略优化(Bi-mode Policy Optimization, BPO)来提升模型判断是否激活思考过程的准确性。具体而言,我们首先在一个涵盖多个领域的精心筛选数据集上进行训练,该数据集包含来自思考与非思考两种模式的样本。随后,模型在改进的GRPO框架下进入第二阶段训练,其中策略模型被强制为每个输入生成两种模式的响应。实验结果表明,R-4B在25个具有挑战性的基准测试中达到了最先进的性能。在大多数任务中优于Qwen2.5-VL-7B,并在计算成本更低的情况下,在推理密集型基准测试中实现了与Kimi-VL-A3B-Thinking-2506(16B)相当的性能。


3. A.S.E: A Repository-Level Benchmark for Evaluating Security in

AI-Generated Code

作者: Keke Lian, Bin Wang, Lei Zhang, Libo Chen, Junjie Wang, Ziming Zhao, Yujiu Yang, Haotong Duan, Haoran Zhao, Shuang Liao, Mingda Guo, Jiazheng Quan, Yilu Zhong, Chenhao He, Zichuan Chen, Jie Wu, Haoling Li, Zhaoxuan Li, Jiongchi Yu, Hui Li, Dong Zhang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-25 | 👍 点赞数: 72

摘要:

摘要:随着大型语言模型(LLMs)在软件工程中的广泛应用,对其生成代码进行严格的安全评估变得愈发重要。然而,现有的基准测试存在不足之处,主要体现在关注孤立的代码片段、采用缺乏可重复性的不稳定评估方法,以及未能将输入上下文质量与输出安全性关联起来。为弥补这些不足,我们提出了A.S.E(AI Code Generation Security Evaluation),一个面向仓库级别的安全代码生成基准测试。A.S.E基于具有已记录CVE信息的真实世界代码仓库构建任务,完整保留了诸如构建系统和跨文件依赖等仓库上下文信息。其可重复、基于容器的评估框架利用专家定义的规则,对安全性、构建质量和生成稳定性进行稳定且可审计的评估。通过对主流LLMs在A.S.E上的评估,我们得出三个关键发现:(1)Claude-3.7-Sonnet取得了最佳整体表现;(2)专有模型与开源模型之间的安全差距较小;Qwen3-235B-A22B-Instruct获得了最高的安全评分;(3)在安全补丁生成任务中,简洁的“快速思考”解码策略在表现上持续优于复杂的“慢速思考”推理方法。


4. EmbodiedOneVision: Interleaved Vision-Text-Action Pretraining for

General Robot Control

作者: Delin Qu, Haoming Song, Qizhi Chen, Zhaoqing Chen, Xianqiang Gao, Xinyi Ye, Qi Lv, Modi Shi, Guanghui Ren, Cheng Ruan, Maoqing Yao, Haoran Yang, Jiacheng Bao, Bin Zhao, Dong Wang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-28 | 👍 点赞数: 71

摘要:

论文标题:EmbodiedOneVision: Interleaved Vision-Text-Action Pretraining for General Robot Control

中文摘要: 人类在开放世界中无缝进行多模态推理和物理交互的能力,是通用具身智能系统的核心目标。近期的视觉-语言-动作(Vision-Language-Action, VLA)模型通过在大规模机器人和视觉-文本数据上联合训练,在通用机器人控制方面取得了显著进展。然而,它们在交错推理与交互方面仍未能达到人类水平的灵活性。本研究提出EO-Robotics,包括EO-1模型和EO-Data1.5M数据集。EO-1是一种统一的具身基础模型,通过交错的视觉-文本-动作预训练,在多模态具身推理和机器人控制方面表现出卓越性能。EO-1的开发基于两个关键支柱:(i) 一种统一架构,能够无差别处理多模态输入(图像、文本、视频和动作);(ii) 一个大规模高质量的多模态具身推理数据集EO-Data1.5M,包含超过150万条样本,重点强调视觉-文本-动作交错理解。EO-1通过在EO-Data1.5M数据集上结合自回归解码与流匹配去噪进行训练,实现了无缝的机器人动作生成与多模态具身推理。大量实验表明,交错的视觉-文本-动作学习在开放世界理解和泛化能力方面具有显著效果,通过多种多形态平台上的长视野、高精度操作任务得以验证。本文详细介绍了EO-1的架构、EO-Data1.5M的数据构建策略以及训练方法,为开发先进的具身基础模型提供了有价值的见解。


5. Droplet3D: Commonsense Priors from Videos Facilitate 3D Generation

作者: Xiaochuan Li, Guoguang Du, Runze Zhang, Liang Jin, Qi Jia, Lihua Lu, Zhenhua Guo, Yaqian Zhao, Haiyang Liu, Tianqi Wang, Changsheng Li, Xiaoli Gong, Rengang Li, Baoyu Fan

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-28 | 👍 点赞数: 64

摘要:

摘要:
缩放定律已经验证了在文本、图像和视频领域中,大规模数据训练模型在创意生成方面的成功和前景。然而,这一范式在3D领域面临数据稀缺的问题,因为互联网上3D数据的可用量远少于上述模态。幸运的是,存在大量视频数据,其本身蕴含常识性先验信息,可以作为替代的监督信号,缓解由于原生3D数据有限而导致的泛化瓶颈。一方面,捕捉物体或场景多个视角的视频提供了用于3D生成的空间一致性先验;另一方面,视频中丰富的语义信息使生成内容更符合文本提示,并具有语义上的合理性。本文探讨了如何将视频模态应用于3D资产生成,涵盖数据集到模型的全流程。我们引入了Droplet3D-4M,这是首个具有多视角级别标注的大规模视频数据集,并训练了支持图像和密集文本输入的生成模型Droplet3D。大量实验验证了我们方法的有效性,展示了其生成空间一致且语义合理的3D内容的能力。此外,与当前主流的3D生成方案相比,我们的方法展现出扩展至场景级应用的潜力。这表明来自视频的常识性先验信息显著促进了3D内容的生成。我们已开源所有资源,包括数据集、代码、技术框架和模型权重: https://dropletx.github.io/


6. Think in Games: Learning to Reason in Games via Reinforcement Learning

with Large Language Models

作者: Yi Liao, Yu Gu, Yuan Sui, Zining Zhu, Yifan Lu, Guohua Tang, Zhongqian Sun, Wei Yang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-29 | 👍 点赞数: 21

摘要:

大型语言模型(Large Language Models, LLMs)在诸如数学和编程等复杂推理任务中表现出色,但它们却经常在年幼儿童可以轻松完成的简单交互任务中遇到困难。这种差异凸显了陈述性知识(知道关于某事物)与程序性知识(知道如何做某事)之间的一个关键性差距。尽管传统的强化学习(Reinforcement Learning, RL)代理可以通过与环境交互来获取程序性知识,但它们通常以黑箱方式运行,并且需要大量的训练数据。相比之下,LLMs具备广泛的世界知识和推理能力,但却无法有效地将这种静态知识转化为交互环境中的动态决策。为了解决这一挑战,我们提出了“在游戏中思考”(Think in Games,TiG)这一新框架,使LLMs能够通过与游戏环境的直接交互来发展程序性理解,同时保留其固有的推理和解释能力。具体而言,TiG将基于强化学习的决策过程重新定义为一种语言建模任务:LLMs生成语言引导的策略,并通过在线强化学习根据环境反馈进行迭代优化。我们的实验结果表明,TiG成功地弥合了陈述性知识与程序性知识之间的差距,在显著降低数据和计算需求的情况下,实现了与传统RL方法相当的性能。此外,TiG能够为决策提供逐步的自然语言解释,从而极大地提升了复杂交互任务中的透明度和可解释性。


7. TalkVid: A Large-Scale Diversified Dataset for Audio-Driven Talking Head

Synthesis

作者: Shunian Chen, Hejin Huang, Yexin Liu, Zihan Ye, Pengcheng Chen, Chenghao Zhu, Michael Guan, Rongsheng Wang, Junying Chen, Guanbin Li, Ser-Nam Lim, Harry Yang, Benyou Wang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-19 | 👍 点赞数: 17

摘要:

TalkVid:一个用于音频驱动说话人头部生成的大规模多样化数据集

音频驱动的说话人头部生成技术已实现了显著的逼真效果,然而当前最先进的(SOTA)模型存在一个关键缺陷:其在人类多样性(包括种族、语言和年龄组)的完整谱系上缺乏泛化能力。我们认为,这种泛化能力的不足直接源于现有训练数据的局限性,这些数据在规模、质量和多样性方面均不足。为了解决这一问题,我们提出了TalkVid,这是一个新的大规模、高质量且多样化的数据集,包含来自7729个不同说话人的1244小时视频。TalkVid通过一个系统化、多阶段的自动化处理流程进行筛选,严格保证运动稳定性、美学质量和面部细节,并通过人类判断验证其可靠性。此外,我们构建并发布了TalkVid-Bench,这是一个在关键人口统计和语言维度上经过精细平衡的分层评估集,包含500个视频片段。实验表明,在TalkVid上训练的模型优于在先前数据集上训练的模型,展现出更优的跨数据集泛化能力。更重要的是,我们在TalkVid-Bench上的分析揭示了传统聚合指标所掩盖的子群体性能差异,突显了其对未来研究的重要性。 代码和数据可在https://github.com/FreedomIntelligence/TalkVid获取。


8. Efficient Code Embeddings from Code Generation Models

作者: Daria Kryvosheieva, Saba Sturua, Michael Günther, Scott Martens, Han Xiao

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-29 | 👍 点赞数: 14

摘要:

jina-code-embeddings 是一个新颖的代码嵌入模型套件,旨在从自然语言查询中检索代码、执行技术问答任务,并识别跨编程语言的语义相似代码片段。该模型创新性地采用了一个在文本和代码上均进行预训练的自回归主干网络,并通过最后令牌池化(last-token pooling)生成嵌入表示。我们详细介绍了其训练方法,并证明了尽管模型规模相对较小,仍可实现最先进的性能,从而验证了这种代码嵌入模型构建方法的有效性。


9. TiKMiX: Take Data Influence into Dynamic Mixture for Language Model

Pre-training

作者: Yifan Wang, Binbin Liu, Fengze Liu, Yuanfan Guo, Jiyao Deng, Xuecheng Wu, Weidong Zhou, Xiaohuan Zhou, Taifeng Wang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-25 | 👍 点赞数: 14

摘要:

TiKMiX: 将数据影响纳入语言模型预训练的动态混合策略

在语言模型的预训练中,所采用的数据混合策略是其最终性能的关键因素。然而,静态的混合策略并非最优,因为模型在训练过程中对不同数据领域的学习偏好会动态变化。关键在于,以计算高效的方式观察这些不断演变的偏好仍是一个重大挑战。为了解决这一问题,我们提出了TiKMiX,一种根据模型演化偏好动态调整数据混合比例的方法。TiKMiX引入了Group Influence这一高效指标,用于评估数据领域对模型的影响。该指标使得将数据混合问题建模为寻找一个最优且影响最大化分布的过程。我们通过两种方法解决该问题:TiKMiX-D用于直接优化,TiKMiX-M则使用回归模型预测更优的混合比例。我们在多达1万亿token的数据上训练了不同参数规模的模型。TiKMiX-D在仅使用20%计算资源的情况下,性能超过了REGMIX等当前最先进的方法。TiKMiX-M在9个下游基准任务上平均提升了2%的性能。我们的实验表明,模型对数据的偏好会随着训练进度和模型规模的变化而演化,而基于Group Influence(对这些偏好的直接度量)动态调整数据混合比例能够显著提升性能,有效缓解静态混合比例导致的数据利用不足问题。


10. UItron: Foundational GUI Agent with Advanced Perception and Planning

作者: Zhixiong Zeng, Jing Huang, Liming Zheng, Wenkang Han, Yufeng Zhong, Lei Chen, Longrong Yang, Yingjie Chu, Yuzhi He, Lin Ma

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-29 | 👍 点赞数: 11

摘要:

UItron:具有先进感知与规划能力的GUI基础代理

图形用户界面(GUI)代理旨在实现移动设备/个人计算机的自动化操作,是实现通用人工智能的重要任务。视觉语言模型(VLMs)的快速发展加速了GUI代理的进步,这得益于其在视觉理解和任务规划方面的强大能力。然而,构建一个GUI代理仍然是一项具有挑战性的任务,主要受限于操作轨迹的稀缺性、交互基础设施的可用性以及基础模型初始能力的局限性。本研究中,我们提出了UItron,这是一个开源的GUI自动化代理基础模型,具备先进的GUI感知、语义对齐和任务规划能力。UItron强调系统性数据工程和交互基础设施作为推动GUI代理发展的基础要素。该模型不仅系统性地研究了一系列数据工程策略以提升训练效果,还构建了一个连接移动设备和PC的交互式环境。在训练过程中,UItron首先在多种GUI场景中对感知和规划任务进行监督微调,随后开发了一个课程强化学习框架,以实现在线环境中的复杂推理和探索。最终,UItron在GUI感知、语义对齐和任务规划的基准测试中表现出色。特别地,UItron突出了其在中文顶级移动应用程序中的交互熟练度,因为我们发现即使在最先进的解决方案中,中文能力仍存在普遍不足。为此,我们手动收集了超过一百万步的操作轨迹,涵盖最受欢迎的100个中文应用程序,并构建了离线和在线代理评估环境。实验结果表明,UItron在中文应用程序场景中取得了显著进展,使GUI代理更接近实际应用。


11. AHELM: A Holistic Evaluation of Audio-Language Models

作者: Tony Lee, Haoqin Tu, Chi Heem Wong, Zijun Wang, Siwei Yang, Yifan Mai, Yuyin Zhou, Cihang Xie, Percy Liang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-29 | 👍 点赞数: 9

摘要:

摘要:音频-语言模型(Audio-Language Models, ALMs)的评估受限于缺乏标准化基准;大多数基准测试仅衡量一到两个能力,忽略了公平性或安全性等评估维度。此外,模型间的比较较为困难,因为不同的评估测试的模型数量有限,且提示方法和推理参数各不相同。为弥补这些不足,我们提出了AHELM,一个聚合多种数据集的基准测试,其中包括两个新的合成音频-文本数据集:PARADE,用于评估ALMs在避免刻板印象方面的能力;CoRe-Bench,通过推理性多轮问答来衡量对对话音频的理解能力。AHELM旨在全面衡量我们识别出的对ALMs发展和应用至关重要的10个方面:音频感知、知识、推理、情感检测、偏见、公平性、多语言能力、鲁棒性、毒性以及安全性。我们还统一了提示方式、推理参数和评估指标,以确保模型间比较的公平性。我们测试了来自3个开发者的14个开源权重和闭源API的ALMs,以及3个由自动语音识别器和语言模型组成的简单基线系统。结果显示,尽管Gemini 2.5 Pro在10个方面中的5个方面排名最佳,但在语音识别任务中表现出群体不公平性(p=0.01),而大多数其他模型则没有此问题。我们还发现基线系统在AHELM中表现良好,其中一个仅具备语音转文本能力的系统总体排名第五。为确保透明度,所有原始提示、模型生成内容和输出均可在我们的网站获取:https://crfm.stanford.edu/helm/audio/v1.0.0。AHELM旨在作为一个持续更新的基准测试,未来将不断加入新的数据集和模型。


12. Model-Task Alignment Drives Distinct RL Outcomes

作者: Haoze Wu, Cheng Wang, Wenshuo Zhao, Junxian He

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-28 | 👍 点赞数: 8

摘要:

近期在将强化学习(Reinforcement Learning, RL)应用于大语言模型(Large Language Models, LLMs)方面取得了显著进展。特别是,一系列引人注目但常常违反直觉的现象在LLMs中被报道,这些现象在传统RL设置中并不常见。例如,有显著的结论指出,单个训练样本即可达到与整个数据集相当的性能,奖励信号不需要非常精确,甚至仅使用负样本进行训练也能达到或超越复杂的基于奖励的方法。然而,这些观察结果成立的确切条件——更重要的是,它们失效的条件——仍不清楚。在本研究中,我们识别出一个关键因素,该因素区分了不同的RL观察结果:预训练模型在所评估任务上的Model-Task Alignment程度,以pass@k准确率来衡量。通过对一系列违反直觉的结论进行系统而全面的检验,并结合在不同模型架构和任务领域中的严格实验验证,我们的研究发现,尽管标准的RL训练在各种设置下始终保持稳健性,但许多这些反直觉的结果仅在模型与任务已经具备较强Model-Task Alignment时才会出现。相比之下,在更具挑战性的场景下,这些技术无法推动显著的学习进展,而标准RL方法仍然有效。


13. CLIPSym: Delving into Symmetry Detection with CLIP

作者: Tinghan Yang, Md Ashiqur Rahman, Raymond A. Yeh

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-19 | 👍 点赞数: 6

摘要:

CLIPSym: 基于CLIP的对称性检测研究

对称性是计算机视觉中最重要的几何线索之一,其检测一直是一项具有挑战性的任务。随着视觉-语言模型(如CLIP)的最新进展,我们探讨了预训练的CLIP模型是否可以通过利用自然图像描述中蕴含的对称性线索来辅助对称性检测。我们提出了CLIPSym,该方法结合了CLIP的图像和语言编码器,并基于Transformer与G-卷积混合设计了一个旋转等变解码器,用于检测旋转对称性和反射对称性。为了充分利用CLIP语言编码器的能力,我们开发了一种新颖的提示技术,称为语义感知提示分组(Semantic-Aware Prompt Grouping, SAPG),通过聚合多种基于常见物体的提示语,更好地融合语义线索以提升对称性检测效果。实验表明,CLIPSym在三个标准对称性检测数据集(DENDI、SDRW和LDRS)上均优于当前最先进的方法。最后,我们进行了详细的消融实验,验证了CLIP预训练的优势、所提出的等变解码器以及SAPG技术的有效性。 代码已公开,地址为https://github.com/timyoung2333/CLIPSym


14. Morae: Proactively Pausing UI Agents for User Choices

作者: Yi-Hao Peng, Dingzeyu Li, Jeffrey P. Bigham, Amy Pavel

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-29 | 👍 点赞数: 5

摘要:

摘要:用户界面(User interface,UI)代理有望使视障和低视力(Blind and low-vision,BLV)用户更容易访问原本不可用或复杂的用户界面。然而,当前的UI代理通常端到端地执行任务,未让用户参与关键决策,也未使其意识到重要的上下文信息,从而降低了用户的主体性(agency)。例如,在我们的实地研究中,一位BLV参与者要求购买最便宜的苏打水,代理在多个价格相同的产品中自动选择了一项,却未提及具有不同口味或更高评分的替代产品。为解决这一问题,我们提出Morae——一种在任务执行过程中自动识别决策点并暂停操作的UI代理,以便用户能够做出选择。Morae利用大型多模态模型,结合用户查询、UI代码和屏幕截图进行解释,并在需要做出选择时提示用户澄清意图。在与BLV参与者共同进行的真实网络任务研究中,与包括OpenAI Operator在内的基线代理相比,Morae帮助用户完成了更多任务,并选择了更符合其偏好的选项。更广泛地讲,本研究展示了一种混合主动权(mixed-initiative)方法,使用户在受益于UI代理自动化的同时,仍能表达自身偏好。


15. Mimicking the Physicist's Eye:A VLM-centric Approach for Physics Formula

Discovery

作者: Jiaqi Liu, Songning Lai, Pengze Li, Di Yu, Wenjie Zhou, Yiyang Zhou, Peng Xia, Zijun Wang, Xi Chen, Shixiang Tang, Lei Bai, Wanli Ouyang, Mingyu Ding, Huaxiu Yao, Aoran Wang

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-24 | 👍 点赞数: 4

摘要:

模仿物理学家的视角:一种以视觉语言模型为中心的物理公式发现方法

从现实世界观测数据中自动发现物理定律是人工智能领域的一大挑战。现有方法依赖于符号回归或大语言模型(LLM),仅限于处理单模态数据,忽略了运动现象中丰富且对物理学家至关重要的视觉现象表征。这种“感官剥夺”严重削弱了它们对动态现象中固有时空模式的解读能力。为填补这一空白,我们提出了VIPER-R1,一种执行基于视觉归纳的物理方程推理以发现基本符号公式的多模态模型。该模型融合了视觉感知、轨迹数据与符号推理能力,以模拟科学发现过程。模型通过运动结构归纳(MSI)课程进行训练,首先采用监督微调解读运动学相图并基于因果思维链(C-CoT)构建假设,随后通过奖励引导的符号校准(RGSC)利用强化学习优化公式结构。在推理阶段,训练完成的VIPER-R1作为智能体:首先提出一个高置信度的符号试探解,然后主动调用外部符号回归工具执行符号残差重对齐(SR^2)。这一最终步骤类似于物理学家进行的微扰分析,能够调和理论模型与实测数据之间的差异。为支持本研究,我们引入PhysSymbol,一个包含5,000个实例的多模态语料库。实验表明,VIPER-R1在准确性和可解释性方面均持续优于当前最先进的视觉语言模型基线方法,能够更精确地发现物理定律。 项目主页:https://jiaaqiliu.github.io/VIPER-R1/


16. Deep Residual Echo State Networks: exploring residual orthogonal

connections in untrained Recurrent Neural Networks

作者: Matteo Pinna, Andrea Ceni, Claudio Gallicchio

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-28 | 👍 点赞数: 1

摘要:

摘要:回声状态网络(Echo State Networks, ESNs)是储库计算(Reservoir Computing, RC)框架中一种特殊的未训练循环神经网络(Recurrent Neural Networks, RNNs),因其快速且高效的学习能力而受到广泛关注。然而,传统的ESNs在处理长期依赖信息时常常面临困难。本文提出了一种基于时间残差连接的新型深度未训练RNN结构,称为深度残差回声状态网络(Deep Residual Echo State Networks, DeepResESNs)。我们展示了利用未训练残差循环层的层次结构能够显著提升记忆容量和长期时间建模能力。对于时间残差连接,我们考虑了多种正交配置方式,包括随机生成和固定结构的配置,并研究了它们对网络动态特性的影响。通过详尽的数学分析,我们给出了确保DeepResESN内部动态稳定性的必要和充分条件。在多种时间序列任务上的实验结果表明,所提出的方法在性能上优于传统的浅层和深度储库计算模型。


17. HERMES: Human-to-Robot Embodied Learning from Multi-Source Motion Data

for Mobile Dexterous Manipulation

作者: Zhecheng Yuan, Tianming Wei, Langzhe Gu, Pu Hua, Tianhai Liang, Yuanpei Chen, Huazhe Xu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-27 | 👍 点赞数: 1

摘要:

利用人类运动数据赋予机器人多样化的操作技能已成为机器人操作领域的一个有前景的范式。然而,将多源的人类手部运动转化为可行的机器人行为仍然面临挑战,尤其是在配备具有复杂、高维动作空间的多指灵巧手的机器人上。此外,现有方法往往难以生成能够适应不同环境条件的策略。本文中,我们提出了HERMES,一种面向移动式双手灵巧操作的人机学习框架。首先,HERMES构建了一种统一的强化学习方法,能够无缝地将来自多个来源的异构人类手部运动转化为物理上合理的机器人行为。随后,为缓解仿真到现实(sim2real)的差距,我们设计了一种端到端的基于深度图像的sim2real迁移方法,以提升在真实世界场景中的泛化能力。此外,为了在多样且非结构化的环境中实现自主操作,我们在导航基础模型中引入了闭环的Perspective-n-Point(PnP,PnP定位机制),确保视觉目标的精确定位,并有效连接自主导航与灵巧操作。大量实验结果表明,HERMES在多种真实场景中均展现出良好的泛化能力,成功完成了多项复杂的移动式双手灵巧操作任务。 项目页面:https://gemcollector.github.io/HERMES/


18. Quantization Robustness to Input Degradations for Object Detection

作者: Toghrul Karimov, Hassan Imani, Allan Kazakov

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-27

摘要:

摘要:
训练后量化(PTQ)对于在资源受限设备上部署高效的物体检测模型(如YOLO)至关重要。然而,精度降低对模型在应对现实世界输入退化(如噪声、模糊和压缩伪影)时的鲁棒性影响是一个重要问题。本文对YOLO模型(从nano到extra-large尺度)在多种精度格式下的鲁棒性进行了全面的实证研究,包括FP32、FP16(TensorRT)、动态UINT8(ONNX)和静态INT8(TensorRT)。我们提出并评估了一种面向退化的静态INT8 PTQ校准策略,在该策略中,TensorRT的校准过程会接触到干净图像和合成退化图像的混合数据集。所有模型在COCO数据集上的七种不同退化条件(包括多种类型和程度的噪声、模糊、低对比度和JPEG压缩)以及一个混合退化场景中进行了基准测试。结果表明,尽管静态INT8 TensorRT引擎在干净数据上提供了显著的速度提升(约1.5-3.3倍),且精度损失适中(mAP50-95下降约3-7%),但所提出的面向退化的校准策略在大多数模型和退化条件下并未能持续、广泛地提升鲁棒性。值得注意的是,在特定噪声条件下,较大尺度的模型表现出了更好的性能,表明模型容量可能会影响该校准方法的效果。这些发现突出了增强PTQ鲁棒性的挑战,并为在非受控环境中部署量化检测器提供了有价值的见解。 所有代码和评估表格可在https://github.com/AllanK24/QRID获取。


19. EduRABSA: An Education Review Dataset for Aspect-based Sentiment

Analysis Tasks

作者: Yan Cathy Hua, Paul Denny, Jörg Wicker, Katerina Taskova

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-08-23

摘要:

每年,大多数教育机构都会收到来自学生关于课程、教学和整体体验的大量文本反馈。然而,将这些原始反馈转化为有价值的见解远非易事。由于内容复杂性和低粒度报告需求,针对此类教育评论文本数据采用自动意见挖掘解决方案一直是一个长期存在的挑战。基于方面的 sentiment 分析(Aspect-based Sentiment Analysis, ABSA)因其丰富的句子级以下意见挖掘能力,提供了一种很有前景的解决方案。然而,现有的ABSA研究和资源主要集中于商业领域,在教育领域则因公开数据集有限和严格的数据保护措施而稀缺且难以开发。为了推动这一资源匮乏领域的研究,我们提出了EduRABSA(Education Review ABSA),这是首个公开的、经过标注的ABSA教育评论数据集,涵盖三种评论对象类型(课程、教学人员、大学),适用于英语语言环境,并覆盖所有主要的ABSA任务,包括研究较少的隐式方面和隐式观点抽取。我们同时分享了ASQE-DPT(Data Processing Tool),这是一款离线、轻量级、无需安装的手动数据标注工具,能够通过单任务标注生成适用于综合ABSA任务的标注数据集。这些资源共同为ABSA社区和教育领域消除了数据集障碍,支持研究的透明性和可重复性,并促进了更多资源的创建与共享。数据集、标注工具以及用于数据集处理和抽样的脚本与统计信息可在 https://github.com/yhua219/edurabsa_dataset_and_annotation_tool获取。