《机器之心》报道,《机器之心》编辑部(LLM)在持续学习方面取得新进展。最近,谷歌推出了一种用于持续学习的新机器学习范式:嵌套学习。该模型不再使用静态训练周期,而是在具有不同更新的嵌套层中学习。关税。这可能是人工智能“真正像大脑一样进化”的重要一步。此方法一经公开,引发了网友的热议。不少网友表示:“这非常令人兴奋,也是迈向真正自适应和自我提升智能的重要一步。”下面我们仔细看看。谷歌表示,在过去的十年里,得益于强大的神经网络结构和高效的训练,机器学习(ML)领域取得了令人难以置信的进步算法.しかし、大规模言语モデル(LLM)くつかの基本的な问题、特に「継続的学习」、つまりモデルが古い知识を忘れることなく新しい知识やsuキルを継続的に学习できるかどうかという问题がまだしてますい存在。当谈到人类的学习和自我时——改进,人脑就是最完美的例子。它利用神经可塑性来不断调整其结构并适应新的经历、记忆和学习。缺乏这种能力的人患有顺行性遗忘症,这意味着他们只能理解眼前的信息。当前的法学硕士面临类似的限制,“知识”仅限于输入窗口的上下文或在预训练阶段学习的静态信息。弥补这些缺点的一个直观方法是用新数据不断更新模型参数,但这通常会导致所谓的“灾难性遗忘”(CF),即模型学习新任务但失去执行旧任务的能力。任务.rizムを改善することで、この问题を軽减しようと试みてきました。但很长一段时间大家都在谈论“模型结构”和“优化算法”。我一直认为它是不同的东西。这种各自为政的视角导致很难建立统一高效的学习体系系统。谷歌在 NeurIPS 2025 上发表的论文《嵌套学习:深度学习架构的幻觉》提出了一种新的学习框架来弥合架构和优化之间的差距:嵌套学习。核心思想是机器学习模型不是单一的学习过程,而是由多个相互关联的层次优化子问题组成。谷歌认为模型架构和优化算法本质上是同一类型的东西。它们只是不同级别的“优化级别”。在嵌套学习原理的基础上,Google 设计了Hope,一种自修改架构。实验表明,Hope 在语言建模任务上表现良好,并且优于当前的 AI 模型。长上下文内存管理中的下一代 文章标题:嵌套学习:深度学习架构的幻象 文章地址:https://abehrouz.github.io/files/NL.pdf 嵌套学习范式 嵌套学习揭示了比较lex 机器学习模型实际上是一系列嵌套或并行运行的优化问题。每个子问题都有自己的上下文流,这是必须学习的一组特定信息。换句话说,传统的深度学习技术实际上“压缩”了这些内部信息流,而嵌套学习提供了新的设计维度,您将能够创建计算深度学习组件。以联想记忆为例。联想记忆是指将一件事与另一件事联系起来的能力。例如,当我们看到一张脸时,我们会想到一个名字。基于此,谷歌发现训练过程本身,特别是反向传播过程,可以建模为联想记忆机制。该模型通过将每个数据点映射到其局部误差来学习测量数据点的“意外性”。类似地,正如 Miras 等人的工作中所指出的,Transformer 的注意力机制也可以形式化d 作为关联记忆模块,用于学习映射序列中标记之间的关系。在人脑中,统一的结构、可重用的模块以及多个时间尺度的更新是人类持续学习的关键。嵌套学习允许每个模型组件以不同的频率更新。这表明常见的架构(变压器、内存模块等)实际上是具有不同刷新率的线性层。通过定义刷新率,或者调整每个组件权重的频率,谷歌可以将这些优化问题组织成有序的“层次结构”,从而形成嵌套学习范式的核心。嵌套学习的实际应用嵌套学习的视角提供了改进算法和现有架构的原则性方法。深度优化器:嵌套学习将优化器(例如 boost 优化器)视为关联内存模块,并允许您将关联内存原理应用于它们。可以看出许多标准优化器依赖于简单的点积相似性(dot Product相似性),但没有考虑到不同数据样本之间的复杂关系。通过将优化目标更改为更标准的损失指标(例如 L2 回归损失),我们可以推导出新的提升公式并使优化器对噪声数据更加鲁棒。连续记忆系统:在传统的 Transformer 中,序列模型存储短期记忆。它充当资源并保存即时上下文。前馈神经网络充当长期记忆并存储先前训练的知识。嵌套学习范式将此概念扩展到称为“连续记忆系统”(CMS)的结构。这种结构将内存视为一系列模块,每个模块都以不同的特定频率进行更新。这为持续学习创造了更丰富、更高效的记忆系统。希望:具有连续内存的自修改架构作为概念证明,Googl我们基于嵌套学习原则设计了 Hope 架构,它是 Titans 架构的变体。 Titans架构是一个基于“惊喜”优先级的长期记忆系统,但参数更新机制只有两层,属于一阶上下文学习。 Hope是一种自修改递归架构,可以执行无限级别的上下文学习,并通过CMS模块扩展上下文窗口。你可以通过自我参考的过程优化自己的记忆,形成无限循环的学习层次结构。实验和结果谷歌评估了新的深度优化器在嵌套学习框架下的有效性以及Hope在语言建模、长上下文推理、持续学习和知识整合任务上的表现。结果表明,Hope 在多语言建模和常识推理任务上混乱更少,准确率更高。不同架构的性能比较语言建模任务(复杂性,左)和常识推理任务(精确性,右):包括 Hope、Titans、Samba 和基本 Transformer。 Hope 在 Haystack (NIAH) 任务中的 Long Context Needle 上展示了明显更好的内存管理能力。这表明 CMS 提供了一种更高效、更有效的方法来处理扩展的信息序列。不同架构在长上下文和不同难度级别下的性能比较,包括 Hope、Titans、TTT 和 Mamba2。其中,NIAH-PK、NIAH-H 和 NIAH-W 分别代表三种类型的棘手任务:访问密钥、数字和单词。总体而言,嵌套学习代表了 Google 对深度学习理解的新阶段,通过将架构和优化视为集成的分层优化系统,开辟了新的设计维度。 Hope 等人得出的模型。这种系统的整合方法已被证明可以产生 g反应者的表达能力、更高的效率和持续学习的能力。嵌套学习为弥合当前LLM“容易遗忘”的局限性与人脑优越的持续学习能力之间的差距奠定了坚实的理论和实践基础,为构建下一代人工智能到自我完善的AI提供了新的可能。 https://research.google/blog/introducing-nested-learning-a-new-ml-paradigm-for-continual-learning/https://x.com/behrouz_ali/status/1986875258935066946https://x.com/JeffDean/status/1986938111839129858
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由提供信息存储服务的社交媒体平台网易号用户上传并发布仅有的。