每日论文 - 2025年09月01日
论文总数: 19
1. A Survey of Scientific Large Language Models: From Data Foundations to
Agent Frontiers
作者: Ming Hu, Chenglong Ma, Wei Li, Wanghan Xu, Jiamin Wu, Jucheng Hu, Tianbin Li, Guohang Zhuang, Jiaqi Liu, Yingzhou Lu, Ying Chen, Chaoyang Zhang, Cheng Tan, Jie Ying, Guocheng Wu, Shujian Gao, Pengcheng Chen, Jiashi Lin, Haitao Wu, Lulu Chen, Fengxiang Wang, Yuanyuan Zhang, Xiangyu Zhao, Feilong Tang, Encheng Su, Junzhi Ning, Xinyao Liu, Ye Du, Changkai Ji, Cheng Tang, Huihui Xu, Ziyang Chen, Ziyan Huang, Jiyao Liu, Pengfei Jiang, Yizhou Wang, Chen Tang, Jianyu Wu, Yuchen Ren, Siyuan Yan, Zhonghua Wang, Zhongxing Xu, Shiyan Su, Shangquan Sun, Runkai Zhao, Zhisheng Zhang, Yu Liu, Fudi Wang, Yuanfeng Ji, Yanzhou Su, Hongming Shan, Chunmei Feng, Jiahao Xu, Jiangtao Yan, Wenhao Tang, Diping Song, Lihao Liu, Yanyan Huang, Lequan Yu, Bin Fu, Shujun Wang, Xiaomeng Li, Xiaowei Hu, Yun Gu, Ben Fei, Zhongying Deng, Benyou Wang, Yuewen Cao, Minjie Shen, Haodong Duan, Jie Xu, Yirong Chen, Fang Yan, Hongxia Hao, Jielan Li, Jiajun Du, Yanbo Wang, Imran Razzak, Chi Zhang, Lijun Wu, Conghui He, Zhaohui Lu, Jinhai Huang, Yihao Liu, Fenghua Ling, Yuqiang Li, Aoran Wang, Qihao Zheng, Nanqing Dong, Tianfan Fu, Dongzhan Zhou, Yan Lu, Wenlong Zhang, Jin Ye, Jianfei Cai, Wanli Ouyang, Yu Qiao, Zongyuan Ge, Shixiang Tang, Junjun He, Chunfeng Song, Lei Bai, Bowen Zhou
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-28 | 👍 点赞数: 124
摘要:
科学大语言模型(Sci-LLMs)正在改变科学知识在研究中的表示、整合与应用方式,然而其发展受到科学数据复杂特性的深刻影响。本文从数据驱动的视角出发,系统综述了Sci-LLMs的发展,将其重新定义为模型与底层数据基础共同演化的进程。我们提出了统一的科学数据分类体系与科学知识的层次化模型,强调科学语料库相较于通用自然语言处理数据集所面临的多模态、跨尺度与领域特定等差异化挑战。我们系统回顾了近年来的Sci-LLMs,涵盖通用基础模型到多个科学领域的专用模型,并对超过270个预训练/后训练数据集进行了深入分析,揭示了为何Sci-LLMs面临异构、多尺度、不确定性强的数据需求——这些数据要求表示方法能够保持领域不变性并支持跨模态推理。在评估方面,我们分析了超过190个基准数据集,发现评估方式正从静态测试向过程导向与发现导向转变,并采用更先进的评估协议。这些以数据为中心的分析揭示了科学数据发展中长期存在的问题,并探讨了半自动化标注流程与专家验证等新兴解决方案。最后,我们展望了范式转变的方向,即迈向闭环系统,使基于Sci-LLMs的自主智能体能够主动开展实验、验证并持续丰富一个动态演化的知识库。总体而言,本研究为构建可信、持续演进的人工智能(AI)系统提供了路线图,使其能够真正成为加速科学发现的合作伙伴。
2. R-4B: Incentivizing General-Purpose Auto-Thinking Capability in MLLMs
via Bi-Mode Annealing and Reinforce Learning
作者: Jie Jiang, Qi Yang, Bolin Ni, Shiming Xiang, Han Hu, Houwen Peng
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-28 | 👍 点赞数: 102
摘要:
R-4B: 通过双模式退火和强化学习激励MLLMs中的通用自动思考能力
具备逐步思考能力的多模态大语言模型(MLLMs)在解决复杂推理问题方面表现出色。然而,对于无需复杂推理即可解决的简单问题,这种思考过程显得冗余。为了解决这一效率问题,我们提出了R-4B,一种具备自适应决策能力的自动思考MLLM,它能够根据问题复杂度决定是否进行思考。R-4B的核心思想是通过双模式退火机制赋予模型同时具备思考与非思考能力,并采用双模式策略优化(Bi-mode Policy Optimization, BPO)来提升模型判断是否激活思考过程的准确性。具体而言,我们首先在一个涵盖多个领域的精心筛选数据集上进行训练,该数据集包含来自思考与非思考两种模式的样本。随后,模型在改进的GRPO框架下进入第二阶段训练,其中策略模型被强制为每个输入生成两种模式的响应。实验结果表明,R-4B在25个具有挑战性的基准测试中达到了最先进的性能。在大多数任务中优于Qwen2.5-VL-7B,并在计算成本更低的情况下,在推理密集型基准测试中实现了与Kimi-VL-A3B-Thinking-2506(16B)相当的性能。
3. A.S.E: A Repository-Level Benchmark for Evaluating Security in
AI-Generated Code
作者: Keke Lian, Bin Wang, Lei Zhang, Libo Chen, Junjie Wang, Ziming Zhao, Yujiu Yang, Haotong Duan, Haoran Zhao, Shuang Liao, Mingda Guo, Jiazheng Quan, Yilu Zhong, Chenhao He, Zichuan Chen, Jie Wu, Haoling Li, Zhaoxuan Li, Jiongchi Yu, Hui Li, Dong Zhang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-25 | 👍 点赞数: 72
摘要:
摘要:随着大型语言模型(LLMs)在软件工程中的广泛应用,对其生成代码进行严格的安全评估变得愈发重要。然而,现有的基准测试存在不足之处,主要体现在关注孤立的代码片段、采用缺乏可重复性的不稳定评估方法,以及未能将输入上下文质量与输出安全性关联起来。为弥补这些不足,我们提出了A.S.E(AI Code Generation Security Evaluation),一个面向仓库级别的安全代码生成基准测试。A.S.E基于具有已记录CVE信息的真实世界代码仓库构建任务,完整保留了诸如构建系统和跨文件依赖等仓库上下文信息。其可重复、基于容器的评估框架利用专家定义的规则,对安全性、构建质量和生成稳定性进行稳定且可审计的评估。通过对主流LLMs在A.S.E上的评估,我们得出三个关键发现:(1)Claude-3.7-Sonnet取得了最佳整体表现;(2)专有模型与开源模型之间的安全差距较小;Qwen3-235B-A22B-Instruct获得了最高的安全评分;(3)在安全补丁生成任务中,简洁的“快速思考”解码策略在表现上持续优于复杂的“慢速思考”推理方法。
4. EmbodiedOneVision: Interleaved Vision-Text-Action Pretraining for
General Robot Control
作者: Delin Qu, Haoming Song, Qizhi Chen, Zhaoqing Chen, Xianqiang Gao, Xinyi Ye, Qi Lv, Modi Shi, Guanghui Ren, Cheng Ruan, Maoqing Yao, Haoran Yang, Jiacheng Bao, Bin Zhao, Dong Wang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-28 | 👍 点赞数: 71
摘要:
论文标题:EmbodiedOneVision: Interleaved Vision-Text-Action Pretraining for General Robot Control
中文摘要: 人类在开放世界中无缝进行多模态推理和物理交互的能力,是通用具身智能系统的核心目标。近期的视觉-语言-动作(Vision-Language-Action, VLA)模型通过在大规模机器人和视觉-文本数据 上联合训练,在通用机器人控制方面取得了显著进展。然而,它们在交错推理与交互方面仍未能达到人类水平的灵活性。本研究提出EO-Robotics,包括EO-1模型和EO-Data1.5M数据集。EO-1是一种统一的具身基础模型,通过交错的视觉-文本-动作预训练,在多模态具身推理和机器人控制方面表现出卓越性能。EO-1的开发基于两个关键支柱:(i) 一种统一架构,能够无差别处理多模态输入(图像、文本、视频和动作);(ii) 一个大规模高质量的多模态具身推理数据集EO-Data1.5M,包含超过150万条样本,重点强调视觉-文本-动作交错理解。EO-1通过在EO-Data1.5M数据集上结合自回归解码与流匹配去噪进行训练,实现了无缝的机器人动作生成与多模态具身推理。大量实验表明,交错的视觉-文本-动作学习在开放世界理解和泛化能力方面具有显著效果,通过多种多形态平台上的长视野、高精度操作任务得以验证。本文详细介绍了EO-1的架构、EO-Data1.5M的数据构建策略以及训练方法,为开发先进的具身基础模型提供了有价值的见解。
5. Droplet3D: Commonsense Priors from Videos Facilitate 3D Generation
作者: Xiaochuan Li, Guoguang Du, Runze Zhang, Liang Jin, Qi Jia, Lihua Lu, Zhenhua Guo, Yaqian Zhao, Haiyang Liu, Tianqi Wang, Changsheng Li, Xiaoli Gong, Rengang Li, Baoyu Fan
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-28 | 👍 点赞数: 64
摘要:
摘要:
缩放定律已经验证了在文本、图像和视频领域中,大规模数据训练模型在创意生成方面的成功和前景。然而,这一范式在3D领域面临数据稀缺的问题,因为互联网上3D数据的可用量远少于上述模态。幸运的是,存在大量视频数据,其本身蕴含常识性先验信息,可以作为替代的监督信号,缓解由于原生3D数据有限而导致的泛化瓶颈。一方面,捕捉物体或场景多个视角的视频提供了用于3D生成的空间一致性先验;另一方面,视频中丰富的语义信息使生成内容更符合文本提示,并具有语义上的合理性。本文探讨了如何将视频模态应用于3D资产生成,涵盖数据集到模型的全流程。我们引入了Droplet3D-4M,这是首个具有多视角级别标注的大规模视频数据集,并训练了支持图像和密集文本输入的生成模型Droplet3D。大量实验验证了我们方法的有效性,展示了其生成空间一致且语义合理的3D内容的能力。此外,与当前主流的3D生成方案相比,我们的方法展现出扩展至场景级应用的潜力。这表明来自视频的常识性先验信息显著促进了3D内容的生成。我们已开源所有资源,包括数据集、代码、技术框架和模型权重:
https://dropletx.github.io/。