来自常见信息来源的有趣新闻和每周最佳研究论文列表
一场新的工业革命正在展开,由AI工厂的兴起所驱动。 这些设施正在改变各个层级的计算,从庞大的数据中心到日常使用的笔记本电脑,很可能很快就会转变为AI笔记本电脑。 在2024年Computex大会上,Jensen Huang强调了这种转变, 指出需要整个行业的合作:硬件供应商、软件开发商和企业需要共同努力,从数据中心转型为AI工厂。 Jensen Huang表示,这种转变不仅仅是技术上的,还涉及到重塑整个计算领域。他通常对自己的言论非常自信。
在Nvidia的预先简报会上,高管们强调了AI PC的重大关注点,这项技术是Nvidia在六年前(2018年)引入的。 这个创新在游戏、内容创作和软件开发等领域引发了革命性变化。
AI PC在过去六年间并未广泛讨论,但现在——得益于微软和Nvidia——它们正在变得无处不在,并与关于新工业革命的对话一起进行。 尽管我们仍处在起步阶段,但确实需要回顾历史。 2018年和2019年初,另一重大事件震撼了机器学习社区。 这一事件促成了突破性的里程碑:ChatGPT。让我们一起回顾这一时间线:
- 2018年,生成预训练变换模型(GPT)的创建引发了—>
- 2019年2月,GPT-2——一个拥有
15
亿参数的大型语言模型。 由于担心滥用,GPT-2未完全公开,仅提供了一个小得多的模型供研究人员实验,并附有一篇技术论文,随后引发了—> - 2020年,GPT-3和论文《语言模型是少量样本学习者》,进而演变为—>
- 2022年,GPT-3.5和其微调版本InstructGPT,并附有研究论文《通过人类反馈训练语言模型遵循指令》。
- 2022年11月,ChatGPT。其训练方式与InstructGPT非常相似, 其背后的魔力基于研究论文《基于人类偏好的深度强化学习》,这种技术称为基于人类反馈的强化学习(RLHF)。
现 为Anthropic联合创始人、前OpenAI政策主管的Jack Clark今天反思了GPT-2的发布,他形容这是“时光旅行的一个例子”。 2019年,OpenAI因担心滥用而决定不完全公开GPT-2,这一决定在AI社区引发了热烈辩论。这场辩论的核心在于平衡创新与伦理责任。 批评者认为,保留模型可能会减缓科学进步,而支持者赞扬OpenAI的谨慎态度。
Jack认为,偏离常规可能引发反作用。 通过逐步发布GPT-2,OpenAI无意中激发了开发开源GPT-2级系统的兴趣,因为其他人希望填补这一空白。 如果GPT-2一开始就完全发布,可能会有更少的复制,因为更少的人会感到有必要证明OpenAI的错误。
在Clark对那段动荡时期的回忆中,有许多有趣的问题。虽然值得全文阅读,但以下是一些值得注意的引言:
-
“即使你能想象某事在技术上是可能的,你也不太可能正确预测它到来的时间或其严重性。”
-
“我逐渐相信在政策上‘一点点就能产生巨大影响’——比起对特定未来设计的想法进行自信的押注, 提倡那些在所有未来中你认为是稳健的好想法要好得多。”
-
“我们应该害怕这些监管思想所编码的权力结构,并且我们应该将它们视为本身具有危险性的东西。 我担心,与长期AI安全和AGI愿景一致的AI政策社区因为赋予未来AGI毁灭人类极高的概率, 就认为这可以证明当前的任何行动是正当的。”
-
“五年后,因为像GPT-2这样的事情,我们正处于AI部门的大规模工业化之中,以响应这些想法的规模化。 现在,有一种强烈的似曾相识感——人们(包括我)正在关注像Claude 3或GPT-4这样的模型, 并对这些系统的技术含义以及进一步扩展它们的含义发表自信的言论,有些人正在利用这些含义来证明在当前实施越来越严格的政策制度的必要性。 我们是否在重复五年前犯下的错误?”
我们没有答案,但可以对这场由扩展定律推动、现在由AI工厂推动的新工业革命发表一些自信的言论。 像Jensen Huang这样的人认为,我们正处于重新定义技术可能性的时刻。 你怎么看?要看到未来的大局,我们——一如既往——鼓励你了解过去。
附加阅读:
甚至像Andrej Karpathy那样与过去玩耍:他刚刚发布了一种快速且成本效益高的方法来训练GPT-2模型。
使用8xA100 GPU训练一个小型GPT-2(124M参数)需要90
分钟和20
美元。
350M
版本需要14
小时和200
美元,而完整的1.6B
模型需要一周和2500
美元。
该方法使用Karpathy的llm.c库,它利用纯C/CUDA进行高效LLM训练,无需大型框架。
来自常见信息来源的新闻
2024年初的AI现状
- 根据麦肯锡的说法,生成式AI的采用正在激增,开始产生可观的价值。
OpenAI的:威胁行为者、安全委员会和回归机器人学
-
OpenAI发布了一份详细报告,强调其AI模型在俄罗斯、中国、伊朗和以色列威胁行为者的隐蔽影响行动中被使用。 这些行动旨在操纵公众舆论和政治结果,但尽管内容生成增加,但在吸引真实受众方面效果不佳。 作为回应,OpenAI实施了诸如禁止账户、分享威胁指标和加强安全协议等措施。 值得注意的活动包括“Bad Grammar”(俄罗斯)、“Doppelganger”(俄罗斯)、“Spamouflage”(中国)、“IUVM”(伊朗)和“Zero Zeno”(以色列)。 这强调了AI在进行和防御隐蔽信息操作中的双重角色,突显了全面防御策略的必要性。
-
他们还成立了一个安全和安保委员会,以解决关键的安全问题。 该委员会由Bret Taylor、Adam D’Angelo、Nicole Seligman和Sam Altman领导, 负责在90天内提出安全建议,并咨询网络安全专家。 这些建议将公开分享,以确保OpenAI项目的强健安全和安保措施。
-
其他新闻中,OpenAI重新启动了其机器人团队,并正在招聘。 回顾过去(也是2018年):学习灵巧的手部操作。 当时,他们开发了一个名为Dactyl的系统,该系统完全在模拟中训练, 但已被证明能够解决不依赖物理精确建模的现实任务。
Claude 3增强工具集成
- Claude 3模型系列现在支持工具使用, 能够与Anthropic Messages API、Amazon Bedrock和Google Cloud的Vertex AI上的外部工具和API进行交互。
NVIDIA的新AI芯片:Vera Rubin
-
在Computex大会上,NVIDIA CEO Jensen Huang在主题演讲中宣布了名为Vera Rubin的AI芯片(以发现暗物质的美国天文学家命名),计划于2026年推出。 该新芯片将配备为AI应用设计的最先进的GPU和CPU。 NVIDIA计划每年升级其AI加速器,从2025年的Blackwell Ultra开始,重点在于成本和能源效率。
-
他们还推出了地球气候数字双胞胎,能够不仅预测而且了解我们的星球及其气候的现状。
Mistral AI推出Codestral
- Mistral AI的研究人员推出了Codestral,一个22B开源权重的生成式AI模型,专为代码生成而设计。
支持超过
80
种编程语言,Codestral在代码补全和测试编写等任务中表现优异,在长距离代码库级别代码补全方面优于其他模型。 通过HuggingFace提供用于研究和测试的访问,Codestral还与VSCode和JetBrains等流行工具集成,提升开发者生产力。
最新的研究论文,按类别分类以便查阅
我们的前三名
法国人了解他们的醒酒 → Hugging Face推出🍷 FineWeb
在博文“🍷 FineWeb:醒酒网络以获取最优质的文本数据规模”中, 研究人员介绍了一个从CommonCrawl快照中提取的15万亿标记的大型数据集。 FineWeb专为LLM预训练设计,通过细致的去重和过滤,强调高质量数据。 他们还开发了FineWeb-Edu,一个优化教育内容的子集,在教育基准
上表现优于现有数据集。他们还使这篇博文成为病毒式传播! 一如既往,向Hugging Face致敬,感谢他们对开放、透明方法的关心, 创建大规模高质量数据集用于LLM训练,以及对葡萄酒的热爱(但这只是一个假设)。
Mamba-2来了!变压器是SSM**:通过结构化状态空间对偶性实现通用模型和高效算法**
来自普林斯顿大学和卡内基梅隆大学的研究人员揭示了变压器和状态空间模型(SSM)之间的深层理论联系。 他们引入了一个名为结构化状态空间对偶性(SSD)的框架,表明SSM可以像变压器一样高效。 他们设计了Mamba-2,一个精细的SSM架构,其速度是前身Mamba的2-8倍(了解Mamba)。 Mamba-2在语言建模任务中仍与变压器竞争,同时优化了内存和计算效率。
视觉语言模型(VLMs)简介
来自Meta、Mila、MIT等知名机构的研究人员介绍了VLMs,解释了它们的功能、训练和评估。 他们强调了在对齐视觉和语言方面的挑战,例如理解空间关系和属性。 论文将VLMs分类为不同的家族,基于对比、掩蔽和生成技术等训练方法。 它还讨论了使用预训练的骨干来增强模型性能,并探索了将VLMs扩展到视频数据以改善时间理解。
AI模型增强
-
变压器可以通过正确的嵌入进行算术 - 使用新颖的嵌入技术提高变压器的算术能力 →阅读论文
-
Trans-LoRA:数据无关的可迁移参数高效微调 - 提高参数高效模型的可迁移性,无需原始数据 →阅读论文
-
LOGAH:使用图超网络以1/100参数预测774百万参数变压器 - 利用图网络高效预测大型模型参数 →阅读论文
-
2BP:两阶段反向传播 - 提出一个两阶段的反向传播过程,以提高计算效率 →阅读论文
-
LLAMA-NAS:用于大型语言模型的高效神经架构搜索 - 使用神经架构搜索找到高效的模型配置 →阅读论文
-
VeLoRA:使用秩-1子标记投影进行内存高效训练 - 通过创新的数据投影技术减少训练期间的内存需求 →阅读论文
-
Zipper:融合模态的多塔解码器架构 - 使用多塔架构在生成任务中高效集成不同模态 →阅读论文
-
NV-Embed:用于通用嵌入模型训练的改进技术 - 提高嵌入训练的质量,以增强检索和分类任务 →阅读论文
-
JINA CLIP:你的CLIP模型也是你的文本检索器 - 使用对比训练提高CLIP模型在文本-图像和文本-文本检索任务中的表现 →阅读论文
AI在多模态和专门任务中的应用
-
Matryoshka多模态模型 - 通过嵌套视觉标记提高多模态模型的效率 →阅读论文
-
Zamba:一个紧凑的7B SSM混合模型 - 结合状态空间和变压器模型,创建一个紧凑高效的混合模型 →阅读论文
-
相似性不是全部:赋予检索增强生成系统多层次思维 - 在 检索增强生成系统中整合更深的上下文理解 →阅读论文
AI伦理、隐私和对齐
-
离线正则化强化学习用于LLM对齐 - 通过强化学习对齐AI行为与人类意图 →阅读论文
-
价值激励偏好优化:统一的在线和离线RLHF方法 - 提出一种适用于在线和离线环境的人类反馈学习新方法 →阅读论文
-
鹦鹉:使用语义变量高效提供LLM应用服务 - 利用应用级信息优化语言模型应用服务 →阅读论文
-
创新与隐私的交叉点:生成式AI的私有合成数据 - 探索在AI训练中维护隐私的技术 →阅读论文
AI的认知能力
- LLMs在高级心理理论任务中达到成人水平 - 评估大型语言模型执行复杂认知任务的能力,比较其与人类的表现 →阅读论文