Skip to main content

每日论文 - 2025年09月25日

论文总数: 14

1. Video models are zero-shot learners and reasoners

作者: Thaddäus Wiedemer, Yuxuan Li, Paul Vicol, Shixiang Shane Gu, Nick Matarese, Kevin Swersky, Been Kim, Priyank Jaini, Robert Geirhos

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-24 | 👍 点赞数: 73

摘要:

论文标题:视频模型是零样本学习者与推理者

中文摘要:
大型语言模型(LLMs)卓越的零样本能力推动了自然语言处理从任务特定型模型向统一的通用基础模型转变。这一变革源于一些简单的基本要素:在互联网规模数据上训练的大型生成式模型。令人关注的是,这些基本要素同样适用于当前的生成式视频模型。那么,视频模型是否也正朝着实现通用视觉理解的方向发展,正如LLMs实现了通用语言理解那样?我们展示了Veo 3能够解决大量未经过显式训练的任务,包括物体分割、边缘检测、图像编辑、理解物理属性、识别物体功能特性(affordances)、模拟工具使用等。这些感知、建模和操控视觉世界的能力,使得视频模型初步具备了视觉推理功能,例如求解迷宫和对称性问题。Veo所展现出的涌现式零样本能力表明,视频模型正走在成为统一的、通用的视觉基础模型的道路上。


2. SIM-CoT: Supervised Implicit Chain-of-Thought

作者: Xilin Wei, Xiaoran Liu, Yuhang Zang, Xiaoyi Dong, Yuhang Cao, Jiaqi Wang, Xipeng Qiu, Dahua Lin

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-24 | 👍 点赞数: 33

摘要:

论文标题:SIM-CoT:监督式隐式思维链

中文摘要:
隐式思维链(Implicit Chain-of-Thought, CoT)方法为大语言模型(LLMs)中传统的显式思维链推理提供了一种颇具前景且令牌效率更高的替代方案,但其应用一直受到持续存在的性能差距限制。本文通过扩展隐式CoT方法的计算预算,发现了一个核心的潜在不稳定性问题:随着隐式推理令牌数量的增加以提升性能,训练过程常常变得不稳定甚至崩溃。我们的分析表明,这种不稳定性源于模型的潜在表征趋于同质化,丧失了语义多样性,其根本原因在于现有隐式CoT方法缺乏足够的步骤级监督。为解决这一问题,我们提出了SIM-CoT——一种即插即用的训练模块,通过引入步骤级监督来稳定并丰富潜在推理空间。具体而言,SIM-CoT在训练过程中引入一个辅助解码器,将每个隐式令牌与其对应的显式推理步骤对齐,确保潜在状态能够捕捉到清晰且有意义的信息。该辅助解码器在推理阶段被移除,因此不会增加任何计算开销,保留了隐式CoT方法原有的高效性。此外,辅助解码器还能通过将每个潜在令牌映射到显式推理词汇空间,实现对隐式推理过程的可解释性,支持对每一步语义角色的可视化分析与诊断。实验表明,SIM-CoT显著提升了多种隐式CoT方法在领域内任务的准确率以及跨领域的稳定性,在GPT-2上使Coconut方法提升+8.2%,在LLaMA-3.1 8B上使CODI方法提升+3.0%。同时,SIM-CoT展现出良好的可扩展性:在GPT-2上,其性能超过显式CoT基线2.1%,且令牌效率高出2.3倍;在LLaMA-3.1 8B等更大规模模型上,也大幅缩小了与显式CoT之间的性能差距。


3. EmbeddingGemma: Powerful and Lightweight Text Representations

作者: Henrique Schechter Vera, Sahil Dua, Biao Zhang, Daniel Salz, Ryan Mullins, Sindhu Raghuram Panyam, Sara Smoot, Iftekhar Naim, Joe Zou, Feiyang Chen, Daniel Cer, Alice Lisak, Min Choi, Lucas Gonzalez, Omar Sanseviero, Glenn Cameron, Ian Ballantyne, Kat Black, Kaifeng Chen, Weiyi Wang, Zhe Li, Gus Martins, Jinhyuk Lee, Mark Sherwood, Juyeong Ji, Renjie Wu, Jingxiao Zheng, Jyotinder Singh, Abheesht Sharma, Divya Sreepat, Aashi Jain, Adham Elarabawy, AJ Co, Andreas Doumanoglou, Babak Samari, Ben Hora, Brian Potetz, Dahun Kim, Enrique Alfonseca, Fedor Moiseev, Feng Han, Frank Palma Gomez, Gustavo Hernández Ábrego, Hesen Zhang, Hui Hui, Jay Han, Karan Gill, Ke Chen, Koert Chen, Madhuri Shanbhogue, Michael Boratko, Paul Suganthan, Sai Meher Karthik Duddu, Sandeep Mariserla, Setareh Ariafar, Shanfeng Zhang, Shijie Zhang, Simon Baumgartner, Sonam Goenka, Steve Qiu, Tanmaya Dabral, Trevor Walker, Vikram Rao, Waleed Khawaja, Wenlei Zhou, Xiaoqi Ren, Ye Xia, Yichang Chen, Yi-Ting Chen, Zhe Dong, Zhongli Ding, Francesco Visin, Gaël Liu, Jiageng Zhang, Kathleen Kenealy, Michelle Casbon, Ravin Kumar, Thomas Mesnard, Zach Gleicher, Cormac Brick, Olivier Lacombe, Adam Roberts, Yunhsuan Sung, Raphael Hoffmann, Tris Warkentin, Armand Joulin, Tom Duerig, Mojtaba Seyedhosseini

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-24 | 👍 点赞数: 27

摘要:

论文标题:EmbeddingGemma:强大而轻量的文本表示模型

中文摘要:
我们推出了EmbeddingGemma,一种基于Gemma 3语言模型系列的新型轻量级开源文本嵌入模型。我们创新的训练方法通过编码器-解码器初始化和几何嵌入蒸馏策略,有效从更大规模的模型中提取知识。为了提升模型的鲁棒性和表达能力,我们引入了分布正则化项;并通过融合多种优化混合配置下的检查点来确保模型的泛化能力。在多语言、英文和代码等多个领域的海量文本嵌入基准(MTEB)上进行评估时,EmbeddingGemma(3亿参数)取得了当前最先进的性能表现。值得注意的是,该模型在参数量少于5亿的情况下,超越了此前各类领先的专有和开源模型,性能可媲美两倍其规模的模型,展现出卓越的性能成本比。尤为突出的是,在对模型权重进行量化或截断嵌入输出时,其领先优势依然保持。这使得EmbeddingGemma特别适用于低延迟、高吞吐的应用场景,例如设备端部署。我们还通过消融实验深入探讨了关键设计选择的影响。为促进后续研究,我们已将EmbeddingGemma向社区全面开源。


4. EditVerse: Unifying Image and Video Editing and Generation with

In-Context Learning

作者: Xuan Ju, Tianyu Wang, Yuqian Zhou, He Zhang, Qing Liu, Nanxuan Zhao, Zhifei Zhang, Yijun Li, Yuanhao Cai, Shaoteng Liu, Daniil Pakhomov, Zhe Lin, Soo Ye Kim, Qiang Xu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-24 | 👍 点赞数: 16

摘要:

论文标题:EditVerse:基于上下文学习统一图像与视频编辑及生成

中文摘要:
基础模型的最新进展凸显出向统一化和规模化发展的明确趋势,并在多个领域展现出涌现能力。尽管图像生成与编辑已迅速从任务专用方法转向统一框架,但由于架构限制和数据稀缺,视频生成与编辑仍处于碎片化状态。本文提出 EditVerse,一种在同一模型中实现图像与视频生成及编辑的统一框架。通过将所有模态(即文本、图像和视频)表示为统一的令牌序列,EditVerse 利用自注意力机制实现强大的上下文学习能力、自然的跨模态知识迁移,以及对任意分辨率和时长的输入输出进行灵活处理。为解决视频编辑训练数据不足的问题,我们设计了一个可扩展的数据流水线,构建了包含 232K 个视频编辑样本的数据集,并将其与大规模图像和视频数据集结合用于联合训练。此外,我们提出了 EditVerseBench,这是首个面向基于指令的视频编辑任务的基准测试,涵盖多种编辑任务和分辨率。大量实验和用户研究表明,EditVerse 在性能上达到当前最优水平,超越现有的开源及商业模型,同时在不同模态间展现出显著的涌现编辑与生成能力。


5. Advancing Speech Understanding in Speech-Aware Language Models with GRPO

作者: Avishai Elmakies, Hagai Aronowitz, Nimrod Shabtay, Eli Schwartz, Ron Hoory, Avihu Dekel

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-21 | 👍 点赞数: 14

摘要:

论文标题:利用GRPO推进语音感知语言模型中的语音理解

中文摘要: 本文提出一种基于分组相对策略优化(Group Relative Policy Optimization, GRPO)的方法,用于在开放格式的语音理解任务(如口语问答和自动语音翻译)上训练语音感知大语言模型(Speech-Aware Large Language Models, SALLMs)。SALLMs已在语音理解任务中展现出卓越性能。GRPO因其在训练大语言模型(LLMs)中的高效性而受到广泛关注,先前研究已探索其在SALLMs上的应用,但主要局限于多项选择类任务。在此基础上,本文聚焦于更能体现模型生成能力的开放格式任务。我们采用BLEU作为奖励信号,结合GRPO方法对SALLMs进行优化,并通过实验验证,该方法在多个关键指标上均优于标准的监督微调(SFT)。最后,我们探讨了在GRPO框架中引入离策略(off-policy)样本的潜力,为后续改进和研究提供了方向。


6. LLMs4All: A Review on Large Language Models for Research and

Applications in Academic Disciplines

作者: Yanfang, Ye, Zheyuan Zhang, Tianyi Ma, Zehong Wang, Yiyang Li, Shifu Hou, Weixiang Sun, Kaiwen Shi, Yijun Ma, Wei Song, Ahmed Abbasi, Ying Cheng, Jane Cleland-Huang, Steven Corcelli, Patricia Culligan, Robert Goulding, Ming Hu, Ting Hua, John Lalor, Fang Liu, Tengfei Luo, Ed Maginn, Nuno Moniz, Jason Rohr, Brett Savoie, Daniel Slate, Tom Stapleford, Matthew Webber, Olaf Wiest, Johnny Zhang, Nitesh Chawla

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-23 | 👍 点赞数: 10

摘要:

论文标题:LLMs4All:面向各学科研究与应用的大型语言模型综述

中文摘要:
前沿的人工智能(AI)技术不断重塑着我们对世界的认知。例如,基于大型语言模型(LLMs)的应用(如ChatGPT)已展现出在广泛话题上生成类人对话的能力。由于在多种语言相关任务(如开放域问答、翻译和文档摘要)中表现出色,可以预见,随着LLMs在更广泛的现实场景中得到应用(如客户服务、教育与无障碍访问、科学发现等),其将产生深远影响。受其成功启发,本文旨在综述最先进的大型语言模型及其在多个学术领域中的融合与应用,涵盖:(1)人文、社科与法学领域(如历史、哲学、政治学、艺术与建筑、法律);(2)经济与商科领域(如金融、经济学、会计学、市场营销);(3)科学与工程领域(如数学、物理与机械工程、化学与化学工程、生命科学与生物工程、地球科学与土木工程、计算机科学与电气工程)。本文融合人文与技术视角,探讨LLMs如何影响这些领域的研究与实践,同时讨论生成式AI时代下的关键局限性、未解挑战以及未来发展方向。本综述通过梳理LLMs在不同学科中的应用现状,并结合关键观察与洞见,旨在为希望利用LLMs推动各自领域实际应用的研究人员与从业者提供参考与指导。


7. PhysCtrl: Generative Physics for Controllable and Physics-Grounded Video

Generation

作者: Chen Wang, Chuhao Chen, Yiming Huang, Zhiyang Dou, Yuan Liu, Jiatao Gu, Lingjie Liu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-24 | 👍 点赞数: 9

摘要:

论文标题:PhysCtrl:面向可控且基于物理的视频生成的生成式物理方法

中文摘要:
现有的视频生成模型在从文本或图像生成照片级真实感视频方面表现出色,但往往缺乏物理合理性和三维可控性。为克服这些局限,我们提出了PhysCtrl——一种新颖的、基于物理的图像到视频生成框架,支持物理参数与外力控制。该框架的核心是一个生成式物理网络,该网络通过基于物理参数和施加外力条件下的扩散模型,学习四种材料(弹性体、沙土、橡皮泥和刚体)上的物理动力学分布。我们将物理动力学表示为三维点轨迹,并在一个由物理仿真器生成的大规模合成数据集(包含55万段动画)上进行训练。我们提出了一种新颖的时空注意力模块来增强扩散模型,以模拟粒子间的相互作用,并在训练过程中引入基于物理的约束,从而保证生成结果的物理合理性。实验表明,PhysCtrl能够生成逼真且符合物理规律的运动轨迹;当这些轨迹用于驱动图像到视频生成模型时,可产生高保真度、可精确控制的视频,在视觉质量和物理合理性方面均优于现有方法。项目主页:https://cwchenwang.github.io/physctrl


8. Lavida-O: Elastic Large Masked Diffusion Models for Unified Multimodal

Understanding and Generation

作者: Shufan Li, Jiuxiang Gu, Kangning Liu, Zhe Lin, Zijun Wei, Aditya Grover, Jason Kuen

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-23 | 👍 点赞数: 8

摘要:

论文标题:Lavida-O:用于统一多模态理解与生成的弹性大掩码扩散模型

中文摘要:
我们提出了Lavida-O,一种用于多模态理解与生成的统一掩码扩散模型(Masked Diffusion Model, MDM)。与现有仅支持简单图像级理解任务和低分辨率图像生成的多模态MDM(如MMaDa和Muddit)不同,Lavida-O提供了一个统一框架,能够同时实现图像级理解、对象定位、图像编辑以及高分辨率(1024像素)文本到图像合成。Lavida-O引入了一种新颖的弹性Transformer混合架构(Elastic Mixture-of-Transformers, Elastic-MoT),该架构耦合了一个轻量级生成分支与一个更大规模的理解分支,并通过令牌压缩、通用文本条件化和分层采样机制,实现高效且高质量的生成。此外,Lavida-O在图像生成与编辑任务中融入了规划能力与迭代自反思机制,使其理解能力能够无缝提升生成质量。Lavida-O在多项基准测试中取得了最先进的性能,包括RefCOCO对象定位、GenEval文本到图像生成和ImgEdit图像编辑任务,表现优于现有的自回归模型和连续扩散模型(如Qwen2.5-VL和FluxKontext-dev),同时在推理速度上实现了显著提升。这些进展确立了Lavida-O作为可扩展多模态推理与生成的新范式。


9. SimpleFold: Folding Proteins is Simpler than You Think

作者: Yuyang Wang, Jiarui Lu, Navdeep Jaitly, Josh Susskind, Miguel Angel Bautista

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-23 | 👍 点赞数: 6

摘要:

论文标题:SimpleFold:蛋白质折叠比你想象的更简单

中文摘要:
蛋白质折叠模型通常通过将领域知识融入网络结构和训练流程,取得了突破性成果。然而,鉴于生成模型在其他相关任务中已取得成功,我们不禁要问:这些复杂的结构设计是否确实是构建高性能模型的必要条件?本文提出了SimpleFold,这是首个基于流匹配(flow-matching)的蛋白质折叠模型,完全采用通用的Transformer模块构建。现有的蛋白质折叠模型通常依赖计算成本高昂的组件,例如三角更新机制、显式的残基对表示,或针对该领域精心设计的多目标训练策略。相比之下,SimpleFold仅使用标准的Transformer模块并结合自适应层,并通过一个带有额外结构项的生成式流匹配目标进行训练。我们将SimpleFold扩展至30亿参数(3B),并在约900万个蒸馏得到的蛋白质结构数据以及实验PDB数据上进行了训练。在标准的蛋白质折叠基准测试中,SimpleFold-3B的表现与当前最先进的基线模型相当。此外,SimpleFold在集成预测(ensemble prediction)方面展现出优异性能,而这一点对于基于确定性重构目标训练的模型而言通常是难以实现的。得益于其通用架构,SimpleFold在消费级硬件上的部署和推理表现出较高的效率。SimpleFold挑战了蛋白质折叠领域对复杂、特定领域架构的依赖,为未来的研究开辟了一种全新的设计思路。


10. Logics-Parsing Technical Report

作者: Xiangyang Chen, Shuzhao Li, Xiuwen Zhu, Yongfan Chen, Fan Yang, Cheng Fang, Lin Qu, Xiaoxiao Xu, Hu Wei, Minggang Wu

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-24 | 👍 点赞数: 4

摘要:

论文标题:Logics-Parsing 技术报告

中文摘要:
近年来,大型视觉-语言模型(Large Vision-Language Models, LVLM)的进展显著推动了文档解析任务的发展。相较于传统的基于流水线的方法,端到端范式通过集成光学字符识别(OCR)、表格识别、数学公式识别等功能,在将PDF图像转换为结构化输出方面展现出卓越性能。然而,现有方法缺乏对文档布局和阅读顺序的显式分析阶段,限制了LVLM在处理多栏报纸、海报等复杂版式文档上的能力。针对这一局限性,本文提出Logics-Parsing:一种基于LVLM的端到端模型,并引入强化学习机制进行增强。我们的模型设计了精细的奖励机制,以优化复杂版面分析与阅读顺序推断。此外,通过在监督微调中引入化学分子式、手写汉字等多种数据类型,进一步提升了模型的泛化能力。为了对所提方法进行严格评估,我们构建了LogicsParsingBench——一个涵盖9个主要类别及二十余个子类别的精选数据集,包含1,078页级别的PDF图像,该数据集将于后续公开发布。在LogicsParsingBench上开展的大量实验验证了我们所提出模型在多种文档分析场景下的有效性,并实现了当前最先进的(State-of-the-art, SOTA)性能。项目主页:https://github.com/alibaba/Logics-Parsing


11. Mixture of Thoughts: Learning to Aggregate What Experts Think, Not Just

What They Say

作者: Jacob Fein-Ashley, Dhruv Parikh, Rajgopal Kannan, Viktor Prasanna

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-25 | 👍 点赞数: 3

摘要:

论文标题:思维混合体:学习聚合专家的思考,而不仅仅是他们的言辞

中文摘要: 开源大语言模型(LLMs)正日益按领域进行专业化(例如数学、代码、通用推理),这推动了利用多个模型互补优势的系统发展。以往的多LLM方法主要包括三种方式:(i) 将查询路由至一个或少数几个专家模型并独立生成结果;(ii) 通过高成本的多轮交互来聚合各模型的输出;或 (iii) 将模型权重融合为单一模型——通常要求模型结构具有同质性。本文提出“思维混合体”(Mixture of Thoughts, MoT),这是一种在全局路由机制下实现异构专家模型在隐空间层面协作的简单方法。对于每个查询,一个轻量级路由器选择表现最优的K个专家,并指定其中一个为主导专家;均匀分布的交互层将各专家的隐藏状态投影到共享的隐空间中,由主导专家对其活跃(被选中)的同伴进行跨注意力操作。预训练的专家模型保持冻结状态,仅路由器和轻量级交互层参与训练,并采用一种新颖的联合训练目标,以同时优化专家选择和专家间的协作能力。在五个分布内(ID)和三个分布外(OOD)基准测试中,MoT分别以+0.38%和+2.92%的性能超越当前基于路由与聚合的最先进方法Avengers。此外,MoT显著优于表现最佳的单个模型。该方法仅需单次前向推理,运行时间与路由基线相当,且无需迭代聚合带来的额外开销。MoT提供了一种简单有效的隐空间机制,用于整合异构大语言模型,是迈向更广泛多LLM协同的重要一步。我们的代码已公开发布于 https://github.com/jacobfa/mot。


12. On the Use of Agentic Coding: An Empirical Study of Pull Requests on

GitHub

作者: Miku Watanabe, Hao Li, Yutaro Kashiwa, Brittany Reid, Hajimu Iida, Ahmed E. Hassan

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-18 | 👍 点赞数: 3

摘要:

论文标题:关于智能体编程的使用:GitHub上拉取请求的一项实证研究

中文摘要:
大型语言模型(LLMs)正越来越多地被整合到软件开发流程中。通过使用自主人工智能代理,实现自动生成代码并提交拉取请求(pull requests),几乎无需人工干预,这一能力有望成为标准实践。然而,目前对于这些拉取请求的实际有效性,以及它们在真实项目中的采纳程度,尚缺乏深入了解。本文对使用Claude Code(一种具备智能体能力的编程工具)在157个不同开源项目中生成的567个GitHub拉取请求(PRs)进行了实证研究。我们的分析表明,开发者倾向于依赖智能体完成重构、文档编写和测试等任务。研究结果显示,83.8%的智能体辅助PR最终被项目维护者接受并合并,其中54.9%的已合并PR无需进一步修改即可直接集成。其余45.1%的PR在合并前需要额外修改,这些修改通常得益于人工调整,尤其是在缺陷修复、文档完善以及遵循项目特定规范方面。这些发现表明,尽管智能体辅助生成的PR总体上是可接受的,但仍需人类监督与优化以提升其质量。


13. ATLAS: Benchmarking and Adapting LLMs for Global Trade via Harmonized

Tariff Code Classification

作者: Pritish Yuvraj, Siva Devarakonda

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-22 | 👍 点赞数: 2

摘要:

论文标题:ATLAS:通过协调关税编码分类对大语言模型进行基准测试与适应性研究,助力全球贸易

中文摘要:
在协调关税表(Harmonized Tariff Schedule, HTS)下对产品进行准确分类是全球贸易中的关键瓶颈问题,然而该问题在机器学习领域尚未得到充分关注。分类错误可能导致货物运输完全中断,一些主要邮政运营商已因海关申报文件不完整而暂停向美国的投递服务。本文提出了首个针对HTS编码分类的基准数据集,数据源自美国海关裁定在线检索系统(CROSS)。通过对当前领先的大语言模型进行评估,我们发现经过微调的Atlas模型(基于LLaMA-3.3-70B)在10位编码分类任务中实现了40%的完全正确率,在6位编码分类任务中达到57.5%的准确率,分别比GPT-5-Thinking高出15个百分点,比Gemini-2.5-Pro-Thinking高出27.5个百分点。除准确性外,Atlas的推理成本约为GPT-5-Thinking的五分之一、Gemini-2.5-Pro-Thinking的八分之一,并支持本地部署,可在高风险的贸易与合规流程中保障数据隐私。尽管Atlas建立了强有力的基线性能,但该基准任务仍极具挑战性,目前10位编码准确率仅为40%。通过公开发布数据集与模型,我们希望将HTS分类确立为一个新的社区基准任务,并推动未来在检索、推理与对齐方向上的研究工作。


14. kh2d-solver: A Python Library for Idealized Two-Dimensional

Incompressible Kelvin-Helmholtz Instability

作者: Sandy H. S. Herho, Nurjanna J. Trilaksono, Faiz R. Fajary, Gandhi Napitupulu, Iwan P. Anwar, Faruq Khadami, Dasapta E. Irawan

链接: 📄 ArXiv | 🤗 HuggingFace

信息: 📅 发布日期: 2025-09-19

摘要:

论文标题:kh2d-solver:一个用于理想化二维不可压缩开尔文-亥姆霍兹不稳定性模拟的Python库

中文摘要:
本文介绍了一个开源的Python库,用于模拟分层剪切流中二维不可压缩的开尔文-亥姆霍兹(Kelvin-Helmholtz)不稳定性。该求解器采用分数步投影法,并结合基于快速正弦变换的谱方法求解泊松方程,实现了空间上的二阶精度。程序实现充分利用了NumPy、SciPy以及Numba的即时编译(JIT)技术,以提升计算效率。通过四个典型测试案例,研究了雷诺数在1000–5000范围、理查森数在0.1–0.3范围内的动力学行为,包括经典剪切层、双剪切层构型、旋转流动以及受迫湍流。基于香农熵和复杂度指数的统计分析表明,尽管雷诺数较低,双剪切层的混合速率仍比受迫湍流高出2.8倍。该求解器在普通桌面硬件上运行高效,分辨率为384×192的模拟约耗时31分钟完成。结果表明,混合效率不仅取决于不稳定性的强度指标,更依赖于其生成路径,这对基于理查森数的参数化方案提出了挑战,并提示应在气候模型中改进次网格尺度过程的表征方法。