Skip to main content

小型语言模型:AI的未来?来自微软Phi-3创作者的见解

鱼雪

Sébastien Bubeck 和 Ronen Eldan 谈论了 Phi-3 系列的快速进展及其将强大的语言模型引入日常设备的潜力

去年,微软通过论文《教科书即一切》引入了小型语言模型(SLM)Phi,打破了现有的缩放规律,展示了高质量数据本身足以构建可与更大型模型竞争的模型。在不到一年的时间里,在 Build 2024 大会上,他们推出了额外的 Phi-3 模型,包括 Phi-3-small、Phi-3-medium 和 Phi-3-vision。进展如此迅速!我们邀请了 Sébastien Bubeck 和 Ronen Eldan 讨论他们方法背后的直觉、数据集多样性对模型的意外影响、使用合成数据的挑战、小型语言模型的未来等。

您好,Sébastien 和 Ronen,很高兴能进行这次采访。“小型语言模型”是一个新术语,但已经被积极采用。你们在《教科书即一切》中采取的方法背后的直觉是什么?能否带我们回顾一下你们在研究阶段的思考过程?

Sébastien Bubeck:在《AGI 的火花》论文之后,我们决定要“理解” LLM 发生了什么,我们必须尝试构建自己的版本。当然,当时我们完全没有训练这些大型 Transformer 的经验,也没有很多数据可以使用。而且正如我们在《火花》中刚刚了解到的,评估我们训练的任何 LLM 可能会很困难(当时学术基准测试的种类繁多让人望而生畏……)。那么我们做了什么?我们决定尽可能缩小范围:我们选择了编程作为目标,因为有一个现有的大型数据集(The Stack),一个简单而合理的评估指标(OpenAI 的 HumanEval),并且已经证明,参数约为 10 亿的小型网络可以很好地完成这个任务。所以当时我们有一个明确的目标:在我们拥有的几打 GPU 的情况下,用一个 SLM 尽可能提高 HumanEval 分数。这个限制也是关键,它意味着我们必须以某种方式限制数据。然后自然地,我们想到了过滤 The Stack 以仅保留“教育内容”(由 GPT-4 进行过滤!)以及编写“合成教科书”以进一步丰富我们向模型展示的数据。整个项目仅用了一个月时间,每周我们都会在 HumanEval 上提高 10%!一个月后,我们达到了 50%,决定称此为胜利 😊。然后下一个问题变成:这种方法能否用于编程之外的领域?这时我们开始了 phi-1.5 的常识推理,然后是 phi-2 的一般认知能力,最终是 phi-3!

Phi 的创新方法是使用高质量、精心策划的数据集(TinyStories、CodeTextbook)而不是大量的网络数据。这种方法相比于传统的大规模数据收集有哪些挑战和优势?在模型性能或行为方面有没有什么意外的发现?

Ronen Eldan:创建一个从“无中生有”的集合,而不是使用现有资源,主要挑战在于如何使内容多样化。我的意思是:假设你想创建一个教模型常识事实的数据集。你不能只是告诉模型“给我一个所有常识事实的列表”——这行不通,就像你不能合理地期望一个人提供这样的列表一样。语言模型只会给你一个包含许多最常被认为是常识事实的重复列表,但它不会找到更晦涩的事实。因此,如何“跨越”所有事实,以及一般来说,如何让你的数据集覆盖人类知识,都是不明确的。当我们成功创建了一个多样化的数据集时,它对模型的影响让我们非常惊讶——在小规模(即模型在速度和成本方面都很高效)下,我们得到了比预期更强大的模型。

使用 LLM 生成 SLM 的合成训练数据引发了关于潜在偏见和安全问题的讨论,这些问题可能从 LLM 继承下来。应采取哪些措施来确保合成数据集的质量和安全性?

Ronen Eldan:首先,在安全性方面,数据集中的每一条目都是由一个已经过对齐以确保安全性的模型生成的,这是一个巨大的优势。根据我们的经验,“有机”数据集(例如来自网页的数据集)在安全性方面要差得多(经验上)。尽管如此,训练完模型后,始终需要对其进行安全性测试——在实际检查模型之前,永远不要信任它会做什么。在偏见方面,这确实是一个巨大的挑战。我推测,合成数据集将比大多数其他数据集更好,并且有一些基准表明这一点。但是我认为社区在开发更可靠的测试偏见的基准方面仍然有些落后,因为这是一个非常具有挑战性的事情(就像测试人类的偏见一样)。有相当多的工作在进行中,我认为我们正在慢慢但稳步地朝着更安全和更少偏见的模型前进。

Phi-3 模型是根据微软的负责任 AI 标准开发的,这是一套基于六项原则的公司要求:问责制、透明度、公平性、可靠性和安全性、隐私和安全性、包容性。Phi-3 模型经过了严格的安全测量和评估、红队测试、敏感用途审查,并遵循安全指导,以确保这些模型的开发、测试和部署符合微软的标准和最佳实践。

我们在技术论文中详细介绍了我们的安全培训和评估方法,并在模型卡中概述了推荐的用途和限制。请参阅模型卡集合。

最近,在 Microsoft Build 大会上,你们团队推出了全新的 Phi-3 系列模型。从 2023 年 6 月以来,在不到一年的时间里(进展如此迅速!),取得了哪些成果?

Ronen Eldan:确实,我们在一年内取得了惊人的进展:2024 年 4 月,我们通过在 Azure 上发布 Phi-3-mini 向世界展示了 Phi-3 系列模型。在 Build 2024 上,我们将更多 Phi-3 模型引入了 Azure AI 模型目录,包括 Phi-3-small、Phi-3-medium 和 Phi-3-vision(一种结合语言和视觉功能的多模态模型)。但 SLM 和 LLM 之间仍然存在差距。

我们继续通过提出更多技术来推动边界,包括生成合成数据、从外部来源收集高质量数据以及优化模型架构的其他方面。例如,一个关于如何过滤网页数据的小想法可能对模型性能产生重大影响。我认为我们还远未了解 SLM 的全部潜力。

你们如何设想像 Phi-3 这样的 SLM 集成到日常设备中(智能手机、相机、传感器等)?你们认为这种集成会带来哪些新可能性和潜在用例?有没有即将推出的功能或改进让你们特别兴奋?或者更广泛地说,Phi 系列的下一步是什么?

Sébastien Bubeck:我个人迫不及待地想看到像 Phi-3 这样的 SLM 无处不在。我们已经开始看到这种情况,例如 Phi Silica(一种专为运行 Copilot+ PC 而设计的 Phi-3-mini 衍生产品),我们在 2024 年 Build 大会之前的 5 月 20 日宣布。Windows 是第一个拥有专为 NPU 定制的最先进 SLM 的平台,并将于今年晚些时候预装。

最终,我希望在跑步时能与我的手表交谈并让它为我执行一些操作(Phi-3 可以轻松做到这一点)。或者在我去徒步旅行时在我的手机上安装 SLM,当我想问关于我所看到的各种事物的问题时能够提供帮助。这里的应用是无穷无尽的。

微软既注重大型语言模型也注重小型语言模型,既遵循又重塑缩放规律。这一策略背后的原因是什么?公司如何看待这些模型的共存?你们认为行业会转向更小、更高效的模型吗?

Sébastien Bubeck:我们认为小型和大型语言模型都有其用武之地。当我们关心高风险场景时,无论是在医疗保健领域,还是在你的 Copilot 尝试理解你的 GitHub 仓库时,我们愿意花费更多的能源和时间来获得最佳的响应。这时你会希望使用像 GPT-4 这样的前沿模型。但另一方面,也有一些情况,你可能会对模型进行数百万次调用,此时重要的是延迟和成本,因为你可能愿意在大规模情况下出现一些错误。这时 SLM 会大显身手。或者由于隐私和安全原因,你需要所有计算都在设备上完成,再次说明 SLM 是完美的选择。因此,在未来,我认为这两个方向(SLM 和 LLM)都非常

重要。这是关于成本与质量的帕累托前沿,任何特定应用都会落在这个前沿的不同位置!

像 FLUTE 这样的联邦学习技术显示出在分散设备上协同训练模型的前景,同时保护数据隐私。是否有任何联合研究将 FLUTE 或类似方法用于在联邦环境中训练和不断改进 SLM?

Ronen Eldan:我们目前没有研究这一点,因为我们的进展速度太快了。但这在我们的计划中……**