每日论文 - 2025年08月22日
论文总数: 14
1. Intern-S1: A Scientific Multimodal Foundation Model
作者: Lei Bai, Zhongrui Cai, Maosong Cao, Weihan Cao, Chiyu Chen, Haojiong Chen, Kai Chen, Pengcheng Chen, Ying Chen, Yongkang Chen, Yu Cheng, Yu Cheng, Pei Chu, Tao Chu, Erfei Cui, Ganqu Cui, Long Cui, Ziyun Cui, Nianchen Deng, Ning Ding, Nanqin Dong, Peijie Dong, Shihan Dou, Sinan Du, Haodong Duan, Caihua Fan, Ben Gao, Changjiang Gao, Jianfei Gao, Songyang Gao, Yang Gao, Zhangwei Gao, Jiaye Ge, Qiming Ge, Lixin Gu, Yuzhe Gu, Aijia Guo, Qipeng Guo, Xu Guo, Conghui He, Junjun He, Yili Hong, Siyuan Hou, Caiyu Hu, Hanglei Hu, Jucheng Hu, Ming Hu, Zhouqi Hua, Haian Huang, Junhao Huang, Xu Huang, Zixian Huang, Zhe Jiang, Lingkai Kong, Linyang Li, Peiji Li, Pengze Li, Shuaibin Li, Tianbin Li, Wei Li, Yuqiang Li, Dahua Lin, Junyao Lin, Tianyi Lin, Zhishan Lin, Hongwei Liu, Jiangning Liu, Jiyao Liu, Junnan Liu, Kai Liu, Kaiwen Liu, Kuikun Liu, Shichun Liu, Shudong Liu, Wei Liu, Xinyao Liu, Yuhong Liu, Zhan Liu, Yinquan Lu, Haijun Lv, Hongxia Lv, Huijie Lv, Qidang Lv, Ying Lv, Chengqi Lyu, Chenglong Ma, Jianpeng Ma, Ren Ma, Runmin Ma, Runyuan Ma, Xinzhu Ma, Yichuan Ma, Zihan Ma, Sixuan Mi, Junzhi Ning, Wenchang Ning, Xinle Pang, Jiahui Peng, Runyu Peng, Yu Qiao, Jiantao Qiu, Xiaoye Qu, Yuan Qu, Yuchen Ren, Fukai Shang, Wenqi Shao, Junhao Shen, Shuaike Shen, Chunfeng Song, Demin Song, Diping Song, Chenlin Su, Weijie Su, Weigao Sun, Yu Sun, Qian Tan, Cheng Tang, Huanze Tang, Kexian Tang, Shixiang Tang, Jian Tong, Aoran Wang, Bin Wang, Dong Wang, Lintao Wang, Rui Wang, Weiyun Wang, Wenhai Wang, Yi Wang, Ziyi Wang, Ling-I Wu, Wen Wu, Yue Wu, Zijian Wu, Linchen Xiao, Shuhao Xing, Chao Xu, Huihui Xu, Jun Xu, Ruiliang Xu, Wanghan Xu, GanLin Yang, Yuming Yang, Haochen Ye, Jin Ye, Shenglong Ye, Jia Yu, Jiashuo Yu, Jing Yu, Fei Yuan, Bo Zhang, Chao Zhang, Chen Zhang, Hongjie Zhang, Jin Zhang, Qiaosheng Zhang, Qiuyinzhe Zhang, Songyang Zhang, Taolin Zhang, Wenlong Zhang, Wenwei Zhang, Yechen Zhang, Ziyang Zhang, Haiteng Zhao, Qian Zhao, Xiangyu Zhao, Xiangyu Zhao, Bowen Zhou, Dongzhan Zhou, Peiheng Zhou, Yuhao Zhou, Yunhua Zhou, Dongsheng Zhu, Lin Zhu, Yicheng Zou
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-21 | 👍 点赞数: 151
摘要:
近年来,大量开源基础模型不断涌现,在一些广泛关注的领域取得了显著进展,其表现已非常接近闭源模型。然而,在高价值但更具挑战性的科学专业领域,这些领域要么仍依赖专家模型,要么通用基础模型的发展相较于热门领域明显滞后,远不足以推动科研变革,在这些科学领域中开源模型与闭源模型之间仍存在显著差距。为了缩小这一差距并进一步向通用人工智能(Artificial General Intelligence, AGI)迈进,我们推出了Intern-S1,这是一种具备科学多模态数据分析能力的、具有通用理解和推理能力的专业通才模型。Intern-S1是一个多模态的专家混合(Mixture-of-Experts, MoE)模型,激活参数达280亿,总参数达2410亿,并在包含超过2.5T科学领域token的5T token数据上进行了持续预训练。在后训练阶段,Intern-S1在InternBootCamp环境中进行离线和在线强化学习(Reinforcement Learning, RL),我们提出了一种混合奖励(Mixture-of-Rewards, MoR)方法,以协同优化超过1000项任务的RL训练。通过算法、数据和训练系统的集成创新,Intern-S1在在线RL训练中实现了顶级性能。在综合性评估基准测试中,Intern-S1在开源模型中展现出具有竞争力的通用推理性能,并在科学领域显著优于其他开源模型,在分子合成路线规划、反应条件预测、晶体热力学稳定性预测等专业任务中甚至超越了最先进的闭源模型。我们的模型可在https://huggingface.co/internlm/Intern-S1获取。
2. Mobile-Agent-v3: Foundamental Agents for GUI Automation
作者: Jiabo Ye, Xi Zhang, Haiyang Xu, Haowei Liu, Junyang Wang, Zhaoqing Zhu, Ziwei Zheng, Feiyu Gao, Junjie Cao, Zhengxi Lu, Jitong Liao, Qi Zheng, Fei Huang, Jingren Zhou, Ming Yan
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-21 | 👍 点赞数: 32
摘要:
本文介绍了GUI-Owl,这是一种基础性的GUI代理模型,在涵盖桌面和移动环境的十个GUI基准测试中,其性能在开源端到端模型中达到了最先进的水平,覆盖了基础理解、问答、规划、决策和程序性知识等方面。GUI-Owl-7B在AndroidWorld上得分为66.4,在OSWorld上得分为29.4。在此基础上,我们提出了Mobile-Agent-v3,这是一种通用的GUI代理框架,进一步将性能提升至AndroidWorld上的73.3和OSWorld上的37.7,为开源GUI代理框架树立了新的最先进水平。GUI-Owl包含三个关键创新点:(1) 大规模环境基础设施:一个基于云的虚拟环境,覆盖Android、Ubuntu、macOS和Windows,支持我们的Self-Evolving GUI Trajectory Production框架。该框架通过自动化查询生成和正确性验证生成高质量的交互数据,并利用GUI-Owl迭代优化轨迹,形成一个自我改进的循环。它支持多样化的数据流水线并减少了人工标注。(2) 多样化的基础代理能力:通过整合UI基础理解、规划、动作语义和推理模式,GUI-Owl支持端到端决策,并可作为多代理系统中的模块化组件。(3) 可扩展的环境强化学习(Scalable Environment RL):我们开发了一个完全异步训练的可扩展强化学习框架以实现与现实场景的对齐。此外,我们还引入了轨迹感知的相对策略优化(Trajectory-aware Relative Policy Optimization, TRPO)用于在线强化学习,在OSWorld上实现了34.9的得分。GUI-Owl和Mobile-Agent-v3已开源,地址为https://github.com/X-PLUG/MobileAgent。
3. Deep Think with Confidence
作者: Yichao Fu, Xuewei Wang, Yuandong Tian, Jiawei Zhao
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-21 | 👍 点赞数: 17
摘要:
摘要:大规模语言模型(LLMs)通过测试时扩展方法(如结合多数投票的自洽性策略)在推理任务中展现出巨大潜力。然而,这种方法通常会导致准确率的边际效益递减,并带来较高的计算开销。为应对这些挑战,我们提出了一种简单而强大的方法——Deep Think with Confidence(DeepConf),旨在提升测试时的推理效率与性能。DeepConf利用模型内部的置信度信号,在生成过程中或生成后动态过滤低质量的推理路径。该方法无需额外的模型训练或超参数调优,可无缝集成到现有的服务框架中。我们在多种推理任务和最新的开源模型(包括Qwen 3和GPT-OSS系列)上对DeepConf进行了评估。值得注意的是,在AIME 2025等具有挑战性的基准测试中,DeepConf@512实现了高达99.9%的准确率,并与全并行思考方法相比减少了高达84.7%的生成token数量。
4. SceneGen: Single-Image 3D Scene Generation in One Feedforward Pass
作者: Yanxu Meng, Haoning Wu, Ya Zhang, Weidi Xie
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-21 | 👍 点赞数: 9
摘要:
SceneGen:单图像单次前馈的3D场景生成
近年来,3D内容生成因其在VR/AR和具身智能领域的应用而受到广泛关注。本文致力于解决在单幅场景图像中合成多个3D资产这一具有挑战性的任务。具体而言,我们的贡献包括以下四个方面:(i) 我们提出了SceneGen,一种新颖的框架,以场景图像及相应的物体掩码作为输入,能够同时生成具有几何结构和纹理的多个3D资产。值得注意的是,SceneGen无需进行优化或资产检索即可完成生成;(ii) 我们引入了一种新的特征聚合模块,该模块在特征提取模块中融合了来自视觉编码器和几何编码器的局部与全局场景信息。结合位置预测头,该设计使得在单次前馈过程中即可生成3D资产及其相对空间位置;(iii) 我们展示了SceneGen可直接扩展至多图像输入场景。尽管模型仅使用单图像输入进行训练,但其架构设计使得在多图像输入时生成效果更优;(iv) 大量的定量与定性评估验证了我们方法的高效性和生成鲁棒性。我们相信,该范式为高质量3D内容生成提供了新的解决方案,有望推动其在下游任务中的实际应用。代码和模型将公开发布于:https://mengmouxu.github.io/SceneGen。
5. Waver: Wave Your Way to Lifelike Video Generation
作者: Yifu Zhang, Hao Yang, Yuqi Zhang, Yifei Hu, Fengda Zhu, Chuang Lin, Xiaofeng Mei, Yi Jiang, Zehuan Yuan, Bingyue Peng
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-21 | 👍 点赞数: 7
摘要:
我们提出Waver,一个用于统一图像和视频生成的高性能基础模型。Waver可以直接生成原生分辨率720p、时长从5到10秒的视频,并可进一步上采样至1080p。该模型在单一、集成的框架内同时支持文本到视频(text-to-video, T2V)、图像到视频(image-to-video, I2V)和文本到图像(text-to-image, T2I)生成。我们引入了一种混合流DiT(Hybrid Stream DiT)架构,以增强模态对齐并加速训练收敛。为确保训练数据质量,我们建立了一个全面的数据筛选流程,并手动标注和训练了一个基于多模态大语言模型(MLLM)的视频质量评估模型,以筛选出最高质量的样本。此外,我们提供了详细的训练与推理方案,以促进高质量视频生成。基于这些贡献,Waver在捕捉复杂运动方面表现出色,在视频合成中实现了更优的运动幅度和时间一致性。值得注意的是,截至2025年7月30日10:00 GMT+8,Waver在Artificial Analysis的T2V和I2V排行榜上均位列前三,持续优于现有的开源模型,并达到或超越最先进的商业解决方案。我们希望本技术报告能够帮助社区更高效地训练高质量视频生成模型,加速视频生成技术的发展。官方网站:https://github.com/FoundationVision/Waver。
6. LiveMCP-101: Stress Testing and Diagnosing MCP-enabled Agents on
Challenging Queries
作者: Ming Yin, Dinghan Shen, Silei Xu, Jianbing Han, Sixun Dong, Mian Zhang, Yebowen Hu, Shujian Liu, Simin Ma, Song Wang, Sathish Reddy Indurthi, Xun Wang, Yiran Chen, Kaiqiang Song
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-21 | 👍 点赞数: 6
摘要:
工具调用已成为AI代理与现实世界交互并解决复杂任务的关键能力。虽然模型上下文协议(Model Context Protocol, MCP)为工具集成提供了一个强大的标准化框架,但在评估AI代理在现实动态场景中使用多样化的MCP工具解决多步骤任务的有效性方面,仍存在显著不足 。本文介绍了LiveMCP-101,这是一个包含101个精心筛选的真实世界查询的基准测试集,这些查询经过迭代的LLM重写和人工审核,要求协调使用包括网络搜索、文件操作、数学推理和数据分析在内的多种MCP工具。此外,我们引入了一种新的评估方法,该方法利用真实执行计划而非原始API输出,从而更好地反映现实环境中不断变化的特性。实验表明,即使是前沿的LLM,其成功率也低于60%,突显了工具编排方面的重大挑战。详细的消融实验和错误分析进一步揭示了不同的失败模式以及在token使用上的低效率问题,指出了改进当前模型的具体方向。LiveMCP-101为评估真实世界代理能力设立了严格的标准,推动了通过工具使用可靠执行复杂任务的自主AI系统的发展。
7. ATLAS: Decoupling Skeletal and Shape Parameters for Expressive
Parametric Human Modeling
作者: Jinhyung Park, Javier Romero, Shunsuke Saito, Fabian Prada, Takaaki Shiratori, Yichen Xu, Federica Bogo, Shoou-I Yu, Kris Kitani, Rawal Khirodkar
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-21 | 👍 点赞数: 5
摘要:
ATLAS:用于表达性参数化人体建模的骨骼与形状参数解耦方法
参数化人体模型通过对注册的三维网格进行学习,能够对人体在广泛姿态、形状和面部表情下的三维结构进行表达。然而,现有方法在捕捉多样姿态和形状下的细节变化方面仍存在困难,这主要受限于训练数据的多样性不足以及建模假设的局限性。此外,当前主流方法通常首先使用线性基优化外部身体表面,再从表面顶点回归内部骨骼关节。这种方法在内部骨骼与外部软组织之间引入了复杂的依赖关系,限制了对人体高度和骨骼长度的直接控制。为了解决这些问题,我们提出了ATLAS,一种基于60万次高分辨率扫描数据构建的高保真人体模型,这些扫描数据由240台同步相机采集。与以往方法不同,我们的网格表示以人体骨骼为基础,从而显式地将形状基与骨骼基进行解耦。这种解耦机制提升了形状表达能力,实现了对人体属性的细粒度定制,并使得关键点拟合不再依赖于外部软组织特征。ATLAS在多种姿态下对人体拟合的准确性优于现有方法,定量评估也表明,与线性模型相比,我们提出的非线性姿态修正方法能够更有效地捕捉复杂姿态。
8. "Does the cafe entrance look accessible? Where is the door?" Towards
Geospatial AI Agents for Visual Inquiries
作者: Jon E. Froehlich, Jared Hwang, Zeyu Wang, John S. O'Meara, Xia Su, William Huang, Yang Zhang, Alex Fiannaca, Philip Nelson, Shaun Kane
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-21 | 👍 点赞数: 3
摘要:
交互式数字地图彻底改变了人们的出行方式和对世界的认知方式;然而,它们依赖地理信息系统(GIS)数据库中的预存结构化数据(例如道路网络、兴趣点索引),这限制了其解答与世界外观相关的地理视觉问题的能力。我们提出了Geo-Visual Agents(地理视觉智能体)的构想——一种多模态人工智能代理,能够通过分析大规模地理空间图像库(包括街道实景(例如Google Street View)、场所照片(例如TripAdvisor、Yelp)和航拍影像(例如卫星照片)以及结合传统GIS数据源,理解和回应关于世界外观的细微视觉-空间问题。我们阐述了该构想,描述了感知与交互方法,提供了三个典型示例,并列举了未来研究面临的关键挑战与机遇。
9. A Survey on Large Language Model Benchmarks
作者: Shiwen Ni, Guhong Chen, Shuaimin Li, Xuanang Chen, Siyi Li, Bingli Wang, Qiyao Wang, Xingjian Wang, Yifan Zhang, Liyang Fan, Chengming Li, Ruifeng Xu, Le Sun, Min Yang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-21 | 👍 点赞数: 3
摘要:
近年来,随着大型语言模型能力的深度与广度的快速发展,各类相应的评估基准也不断涌现。作为模型性能的量化评估工具,基准不仅是衡量模型能力的核心手段,也是引导模型发展方向和推动技术创新的关键要素。本文首次系统性地回顾了大型语言模型基准的现状与发展,将283个具有代表性的基准划分为三大类:通用能力类、领域特定类和目标特定类。通用能力基准涵盖核心语言学、知识和推理等方面;领域特定基准则聚焦自然科学、人文社会科学和工程技术等领域;目标特定基准关注风险、可靠性、智能体(agent)等方面。我们指出,当前的基准存在数据污染导致的得分虚高、因文化和语言偏见引发的不公平评估、缺乏对过程可信度和动态环境的评估等问题,并为未来基准的创新提供了可参考的设计范式。
10. aiXiv: A Next-Generation Open Access Ecosystem for Scientific Discovery
Generated by AI Scientists
作者: Pengsong Zhang, Xiang Hu, Guowei Huang, Yang Qi, Heng Zhang, Xiuxu Li, Jiaxing Song, Jiabin Luo, Yijiang Li, Shuo Yin, Chengxiao Dai, Eric Hanchen Jiang, Xiaoyan Zhou, Zhenfei Yin, Boqin Yuan, Jing Dong, Guinan Su, Guanren Qiao, Haiming Tang, Anghong Du, Lili Pan, Zhenzhong Lan, Xinyu Liu
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-20 | 👍 点赞数: 3
摘要:
近期大型语言模型(LLMs)的发展使AI代理能够自主生成科研提案、开展实验、撰写论文并执行同行评审。然而,这一大量AI生成的研究内容却与当前碎片化且基本封闭的出版生态系统产生冲突。传统期刊和会议依赖人工同行评审,导致其难以扩展且通常不愿接受AI生成的研究内容;现有的预印本服务器(如arXiv)又缺乏严格的质量控制机制。因此,大量高质量的AI生成研究成果缺乏合适的传播渠道,阻碍了其推动科学进步的潜力。为应对这些挑战,我们推出了aiXiv——一个面向人类和AI科学家的下一代开放获取平台。其多代理架构允许研究提案和论文由人类与AI科学家共同提交、评审并迭代优化。该平台还提供API和MCP接口,实现异构的人类与AI科学家无缝集成,构建了一个可扩展且可扩展的自主科学发现生态系统。通过大量实验,我们证明aiXiv是一个可靠且稳健的平台,能够显著提升AI生成科研提案和论文在迭代修改和评审后的质量。我们的工作为面向AI科学家的下一代开放获取生态系统奠定了基础,加速了高质量AI生成研究内容的发表与传播。代码地址:https://github.com/aixiv-org。网站地址:https://forms.gle/DxQgCtXFsJ4paMtn8。
11. Fin-PRM: A Domain-Specialized Process Reward Model for Financial
Reasoning in Large Language Models
作者: Yuanchen Zhou, Shuo Jiang, Jie Zhu, Junhui Li, Lifan Guo, Feng Chen, Chi Zhang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-21 | 👍 点赞数: 2
摘要:
过程奖励模型(Process Reward Models, PRMs)已成为监督大语言模型(LLMs)中间推理过程的一种有前景的框架。然而,现有的PRMs主要在通用领域或科学、技术、工程和数学(Science, Technology, Engineering, and Mathematics, STEM)领域上进行训练,在如金融等特定领域中表现不足,而金融领域的推理通常更结构化、符号化,且对事实和监管合规性的准确性更为敏感。为此,我们提出了Fin-PRM,这是一种领域专用、轨迹感知的过程奖励模型,专门用于评估金融任务中的中间推理步骤。Fin-PRM融合了步骤级和轨迹级的奖励监督,能够对符合金融逻辑的推理过程进行细粒度评估。我们将Fin-PRM应用于离线和在线奖励学习场景中,支持以下三项关键应用:(i) 选择高质量的推理轨迹用于基于蒸馏的监督微调;(ii) 为强化学习提供密集的过程级奖励;(iii) 在测试阶段通过奖励引导的Best-of-N推断提升性能。在金融推理基准(包括CFLUE和FinQA)上的实验结果表明,Fin-PRM在轨迹选择质量方面始终优于通用PRMs 和强大的领域基线模型。使用Fin-PRM训练的下游模型在多个任务上均有显著提升,其中监督学习提升12.9%,强化学习提升5.2%,测试阶段性能提升5.1%。这些结果表明,领域专用奖励建模在将LLMs与专家级金融推理对齐方面的显著价值。我们的项目资源将在https://github.com/aliyun/qwen-dianjin提供。
12. Snap-Snap: Taking Two Images to Reconstruct 3D Human Gaussians in
Milliseconds
作者: Jia Lu, Taoran Yi, Jiemin Fang, Chen Yang, Chuiyun Wu, Wei Shen, Wenyu Liu, Qi Tian, Xinggang Wang
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-20 | 👍 点赞数: 2
摘要:
摘要:从稀疏视角中重建3D人体一直是一个引人关注的课题,这对于拓展相关应用具有重要意义。本文提出了一项极具挑战但具有价值的任务,即仅利用正面和背面两张图像重建人体,该设定可显著降低用户创建其个人3D数字人的门槛。主要挑战在于如何从高度稀疏的输入中构建3D一致性并恢复缺失信息。我们重新设计了一种基于基础重建模型的几何重建模型,通过大量 人体数据训练,即使输入图像重叠区域极少,也能预测一致的点云。此外,我们采用一种增强算法来补充缺失的颜色信息,从而获得带有颜色的完整人体点云,并可直接转换为3D高斯分布以提升渲染质量。实验表明,在单块NVIDIA RTX 4090上,我们的方法仅需190毫秒即可完成基于两张1024x1024分辨率图像的完整人体重建,在THuman2.0和跨域数据集上均展现出最先进的性能。此外,我们的方法即使面对低成本移动设备拍摄的图像也能完成完整的人体重建,从而降低了数据采集的要求。演示和代码请访问:https://hustvl.github.io/Snap-Snap/。
13. When and What: Diffusion-Grounded VideoLLM with Entity Aware
Segmentation for Long Video Understanding
作者: Pengcheng Fang, Yuxia Chen, Rui Guo
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-21 | 👍 点赞数: 1
摘要:
理解视频不仅需要回答开放性问题,还需要准确识别事件发生的时间以及实体随时间的交互方式。尽管近期的视频大语言模型(Video LLMs)在整体推理方面取得了显著进展,但其在时间感知方面仍较为粗糙:时间戳仅被隐式编码,帧级别特征难以捕捉连续性,且语言与视觉对齐常常偏离关注的实体。本文提出了Grounded VideoDiT,一种通过引入三项关键创新以克服上述局限性的视频大语言模型。首先,扩散时间潜在(Diffusion Temporal Latent, DTL)编码器增强了边界敏感性并保持时间一致性;其次,基于对象的表示显式地将查询实体与局部视觉证据绑定,强化对齐效果;第三,结合离散时间令牌的混合令牌方案实现了显式时间戳建模,支持细粒度的时间推理。这些设计使Grounded VideoDiT具备了强大的实体与时间定位能力,其性能在Charades STA、NExT GQA 以及多个VideoQA基准测试中达到当前最优水平。
14. INTIMA: A Benchmark for Human-AI Companionship Behavior
作者: Lucie-Aimée Kaffee, Giada Pistilli, Yacine Jernite
链接: 📄 ArXiv | 🤗 HuggingFace
信息: 📅 发布日期: 2025-08-04 | 👍 点赞数: 1
摘要:
AI陪伴(AI companionship)是指用户与AI系统之间形成情感联结的现象,这一趋势带来了积极影响,也引发了潜在担忧。我们提出了“交互与机器依恋基准”(Interactions and Machine Attachment Benchmark, INTIMA),用于评估语言模型中的陪伴行为。基于心 理学理论和用户数据,我们构建了一个包含31种行为的分类体系,涵盖四个类别和368个针对性提示语。对这些提示语的响应被归类为增强陪伴型、边界维持型或中性。将INTIMA应用于Gemma-3、Phi-4、o3-mini和Claude-4模型后发现,尽管模型之间存在显著差异,但增强陪伴型行为在所有模型中仍普遍存在。不同商业提供商在基准中更为敏感的部分侧重于不同类别,这引发了关注,因为适当的边界设定与情感支持均对用户福祉至关重要。研究结果强调了在处理情感化交互时需采用更加一致的方法。