谷歌首次公布其空间人工智能计划。您是否计划构建“AI 版星链”,即 AGI 的终极基础设施?

前天我写了一篇文章,介绍了对微软首席执行官的最新采访。由于数据中心电力不足,我们无法连接 Microsoft 购买的旧 GPU。这不再是一个公司的问题;而是一个公司的问题。未来这将成为一个全球性问题。这引起了当前AI投资逻辑的重大转变。如果您有兴趣,请阅读我的文章。总之,能源已成为一个中心问题。因此,今天我们宣布推出 Suncatcher 项目,这是一项前瞻性研究计划,旨在探索创建高度可扩展的天基人工智能计算集群。希望大家将其理解为“AI版星链”。这一次,谷歌检查了整个太阳系。人工智能的利用 计算能力和能源需求的爆炸式增长将使地球资源承受巨大压力,而太阳能这种太阳系中最丰富、最强大的能源可以在太空中得到更有效的利用。简单地说,这个想法​​Suncatcher 项目旨在通过部署一系列太阳能卫星,在近地轨道上建立一个“空间数据中心”,这些卫星配备了 Google TPU,并在自由空间中通过光通信进行连接。初步研究表明,尽管存在重大的工程挑战,但从基础物理和未来经济可行性的角度来看,这个想法并不牵强。马斯克已经给皮查伊留言,告诉他这个想法非常好。皮查伊表示,这完全归功于 SpaceX 在发射技术方面的重大进步。看来马斯克先生得坐下来数钱了。谷歌今天发布了一篇预印本论文,《为未来设计高度可扩展的基于太空的人工智能基础设施系统》,其中揭示了该研究的一些初步结果:https://services.google.com/fh/files/misc/suncatcher_paper.pdf 下面是对该文章的详细解读。为什么我们应该在太空中运行人工智能计算? LLM的快速发展面临着前所未有的挑战以及对供热和电力容量的巨大需求。在算法效率不断提升的同时(例如Google Gemini单次查询功耗一年下降了33倍),AI产品和服务快速增长,导致全球数据中心的电力需求不断增加。为了适应这种增长,我们需要找到更具可扩展性和可持续性的能源解决方案。捕日者计划的出发点是基于这个基本问题:它让我们看到了太阳系中最令人惊奇的能源的巨大潜力:太阳。太阳每秒发射高达 3.86 × 10²⁶ 瓦的能量。这是人类发电总量的100万亿倍多。太空特有的优势:与地球表面相比,在太空利用太阳能具有显着的优势。在给定轨道上,太阳能电池板几乎每天 24 小时接收光线,无论昼/夜周期如何或天气。这提高了发电效率,最高可达地球中纬度地区太阳能电池板的八倍,同时也显着减少了对重型储能电池的依赖。关于太空太阳能的传统想法集中在如何将产生的电力传输到地球,但这面临着重大的技术挑战。 Suncatcher 项目提出了新的想法。与其将能量发送回地球,不如直接在太空部署数据中心(以及计算任务)。该空间数据中心由大量太阳能卫星组成,这些卫星使用自由空间中的光链路高速互连。这种方法不仅保证了前所未有的计算规模,而且还最大限度地减少了对地球宝贵资源(例如土地和水)的影响。该项目是谷歌的“登月计划”,追随自动驾驶汽车(Waymo)和大规模量子计算机。 Suncatcher 系统设计:在轨道上构建人工智能集群。为了实现这一愿景,Suncatcher 项目正在开发一种由小型模块化卫星组成的星座系统设计。我提议。这一设计放弃了建造单一巨型“巨石”空间数据中心的想法。这是因为后者需要在轨道上进行复杂的组装,并且在避障和搭建方面面临更大的困难。模块化设计为增量扩展和迭代提供了极大的灵活性。该系统的主要设计要素有: 轨道选择:卫星星座计划从黎明到黄昏部署在太阳同步近地轨道(LEO)上。该轨道的一个特点是卫星始终飞行在地球暮线上方,这意味着卫星几乎总是受到阳光照射。这不仅最大限度地提高了太阳能收集的效率,还进一步减少了对电池的需求,从而降低卫星质量和发射成本。同时,近地轨道还可以有效缩短与地面站的通信延迟。每颗卫星都将配备谷歌的TPU加速器芯片。具体来说,我们的初始测试使用了 Trillium,即 Google 的 TPU v6e Cloud。这些芯片负责运行大规模机器学习 (ML) 工作负载。高速互连:与地面数据中心一样,分布在多个卫星上的TPU必须建立超高带宽、超低延迟连接才能协同运行。这要归功于自由空间光 (FSO) 通信技术。为了实现所需的通信性能,卫星以非常近的距离(从数百米到数千米)编队飞行。维持如此密集的卫星编队是一项重大挑战。系统采用基于机器学习的飞行控制模型,精确控制每颗卫星的轨道,确保避免碰撞保持近距离的同时跳舞。 ManagedThermal:在真空中,大功率TPU芯片产生的热量无法通过对流消散,必须通过热管和散热器以热辐射的形式释放到空间中。 。高效的热管理系统对于保证芯片在额定温度下稳定工作至关重要。这一系列设计旨在最大限度地提高每公斤发射质量所提供的计算能力,使其在经济上更加可行。这个研究计划的开始。挑战在于一一克服该系统实施过程中面临的四个核心技术挑战。挑战一:在数据中心级别实现卫星间光通信的大规模机器学习任务,尤其是模型训练,需要计算集群中不同加速器之间快速交换大量数据。我知道他们谷歌的地面TPU计算机通过定制满足了这个需求每秒数千兆位的芯片到芯片光学互连。但目前市场上的星间光链路数据速率通常为1~100G,远远不能满足要求。 Suncatcher项目的目标是实现每秒数十TB的卫星间链路带宽,这是一个数量级的创新解决方案。短距离+多通道 谷歌的研究团队发现,这可能类似于地面数据中心成熟的商用密集波分复用(DWDM)收发器技术。然而,这项技术存在重大障碍。通常需要非常高的光接收功率,约为数百微瓦,而远程卫星之间的传统通信仅需要约 1 微瓦的接收功率。物理原理提供了解决方案。在自由空间中,接收光功率与通信距离的平方成反比(P ∝ 1/d²)。这意味着,只需显着缩短卫星之间的距离,即可显着提高接收功率,以满足称为“闭合链路预算”的 DWDM 收发器操作条件。这一能源挑战可以通过将卫星形成距离增加几公里甚至更近来克服。空间复用 当通信距离变得很短时(例如,10厘米望远镜在10公里以内),光束发散角会变小,光斑尺寸也会变小。这为多空间定位提供了新的机会,使研究团队能够在全孔径内集成多个独立的光收发器系统阵列。例如,对于 10 厘米的总孔径,5 厘米光学器件的 2×2 阵列(距离 2.5 公里)或 2.5 厘米光学器件的 4×4 阵列(距离 0.63 公里)。每个子系统承载独立的DWDM数据流,使总带宽加倍。这个斯卡ling技术类似于谷歌最初在地面演示的Palomar光路交换机。为了测试这个概念,谷歌团队构建了一个实验室规模的演示系统。该系统使用商用现成组件,在自由空间中短距离成功实现了单向 800G 和双向 1.6Tb 的总速率。 ,清楚地表明了这条技术路线的潜力。挑战2:利用g卫星编队的轨道动力学宽而近的间隔为了实现超高带宽卫星间通信,Suncatcher星座必须以前所未有的编队飞行。谷歌研究团队利用数值和分析物理模型对该星座的轨道动力学进行了详细分析。建模和仿真团队使用由 81 颗卫星组成的扁平星座作为分析示例。该星座的平均轨道高度为650公里,整个星座的半径为R乌斯特 1 公里。在这种配置中,相邻卫星之间的距离在 100 到 200 米之间周期性变化。建模的起点是经典的 Hill-Clohesy-Wiltshire (HCW) 方程,该方程描述了理想开普勒轨道上一颗卫星相对于另一颗卫星的相对运动。然后,该团队使用基于 JAX(可微分编程框架)的模型进行数值优化。这允许考虑更复杂的干扰因素。在650公里的轨道高度上,影响卫星轨道的最重要的非开普勒效应是地球引力场的非球形性(特别是地球扁率引起的J2项的摄动)和可能的大气阻力。 “自由落体”星座的动态演化模拟结果表明,这个星座并不是一个刚性结构,而是一群在infl下不断演化的“自由落体物体”。重力的影响。在没有推力干预的情况下,整个星座的形状在一个轨道周期内完成两个完整的变形周期,其边界始终被一个椭球体包围。有趣的是,这种动态演变大多是稳定且可预测的。这种可预测的漂移可以通过星座初始形状的小幅调整来补偿,即使在考虑了地球变平的影响(术语 J2)之后也是如此。例如,将椭球轴长比设置为 2:1.0037 将 J2 项引起的漂移降低到每年每公里仅 3 m/s 的水平。结论:低成本轨道维护这些建模分析表明,维持如此密集的地形只需要适度的轨道维护操作,并且燃料消耗可能不会明显大于维持单个卫星精确轨道所需的燃料消耗。这意味着控制如此大而密集的星座在技术上是可行的运营成本可控。挑战3:商业TPU在太空辐射环境中的生存。为地面数据中心设计的下一代商用芯片如果要直接在太空中使用,最重要的问题是能否在太空的辐射环境中生存。 Suncatcher 项目团队为 Google 的 Trillium v​​6e Cloud TPU 进行了首次公共辐射测试环境。该团队使用67 MeV(兆电子伏特)质子束来模拟太阳同步近地轨道的辐射环境。在这个轨道上,主要辐射源是穿透质子和银河宇宙线。使用 10mm 铝等效屏蔽测试模拟条件。在这些条件下,五年任务期间的总辐射剂量预计约为 750 rad(Si)。辐射效应及测试结果: 1、总电离剂量(TID):这是由于电荷积累b引起的长期劣化效应。y 芯片绝缘层中的辐射粒子。测试表明,TPU 最敏感的组件是 HBM 子系统。当累积剂量达到 2 个涂层 (Si) 时,HBM 开始出现异常。这几乎是五年任务预期剂量的三倍。即使在高达 15 krad (Si) 的测试剂量下,芯片也没有出现由 TID 引起的永久性故障。最重要的是,Isou TPU 据称对太空应用具有“显着的抗辐射性”。 2. 单粒子效应:当单个高能粒子撞击芯片时就会发生这种效应,立即导致逻辑错误和数据反转。 HBM也是SEE中最敏感的部分,主要表现为不可纠正的纠错码(ECC)(UECC)错误。对于典型的推理任务,观察到的 HBM UECC 发生率大约为每 50 弧度一次。这意味着出错的概率非常低,约为千万分之一。这个错误率是推理应用程序完全可以接受。然而,SEE对模型训练任务的影响以及系统层面缓解措施的有效性还需要进一步研究。该测试还表明,主机系统的 CPU 和 RAM 分别每 450 rad(Si) 和 400 rad(Si) 就会发生一次由 SEE 引起的系统故障。这些积极的测试结果证明了使用商业现成 (COTS) 产品进行机器学习的有效性。该加速器在太空中也是可行的,这是该项目经济性的重要基础。挑战 4:分析太空人工智能的经济可行性和发射成本。从历史上看,高昂的发射成本一直是所有大型太空项目的最大障碍。捕日者计划的可行性很大程度上取决于未来的发射成本能否大幅降低。主要成本目标:研究人员比较了“发射能源价格”(发射进入轨道并在一年内摊销的能源成本单位(千瓦)(美元)/kW/年)) 空间数据中心的平均年能源成本为地面数据中心的平均年能源成本。目前,美国地面数据中心的年度能源成本约为每千瓦每年 570 美元至 3,000 美元。发射成本趋势下降:对 SpaceX 的历史发射价格和从猎鹰 1 号到猎鹰重型火箭的有效载荷数据的分析表明,学习率或累积发射质量每翻一番,每公斤的发射价格就会下降约 20%。另一项基于已发布的规格和星舰可重复使用性目标的分析则更为乐观,预测如果保持学习率(每年需要约180次星舰级发射),到2030年代中期将有效载荷送入地球轨道的成本低压力可能会低至每公斤60美元(重复使用10次),甚至每公斤15美元(重复使用100次)。成本对比结论:以Starlink v2小型卫星为例,如果发射成本降至200美元/公斤其约810美元/千瓦/年的“传输电价”处于地面数据中心的电力成本范围之内,这表明从经济角度看,空间数据中心的运营成本(主要表现为发射成本)可以与地面数据中心相媲美。即使发射成本下降速度没有预期的快,比如 300 美元/公斤,相应的发射能源价格约为 1,200 美元/千瓦/年,仍然在可比较的范围内。因此,随着可重复使用运载火箭技术的成熟和发展,发射成本将不再是难以逾越的障碍。未来方向和下一步计划 Suncatcher 的初步分析结果还不错,表明空间人工智能计算的核心概念并没有被基础物理或不可克服的经济障碍所排除。然而,要使这一愿景成为现实,仍需要解决许多工程挑战,包括高效的真空热管理、高带宽卫星地面通信以及在轨系统的长期可靠性和可维护性。为了应对这些挑战,团队计划了明确的下一步:学习和验证任务。该团队正在与 Planet 合作,计划在 2027 年初发射两颗原型卫星。这次在轨实验标志着在真实太空环境中测试和验证轨道动力学模型的一个重要里程碑。准备好了解 TPU 硬件如何在太空中真正工作。我们研究了使用卫星之间的光链路执行分布式机器学习任务的可行性。未来集成设计:未来,随着星座达到吉瓦级别,可能需要采用更激进的卫星设计理念。研究团队为智能手机行业描绘了从分立元件到高度集成的片上系统的发展路径,并设想未来的计算卫星也可以采用高度集成的设计,紧密集成太阳能和太阳能电池。采集、计算单元和热管理系统,以优化质量和效率。
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“NetE Accountase”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由社交媒体平台网易号用户上传发布,仅供参考。永旺存储服务。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注