利用硅谷假期来“打开你的思维”。 DeepSeek推出“数学奥数金牌”模型!填补 Google 的 OpenAI 护城河

作者 |陈晨制作 |专门在假期期间制造大新闻的 DeepSeek 又回来了。正当大洋彼岸的工程师们准备切火鸡庆祝节日时,DeepSeek 保持了极客传统,悄然发布了 DeepSeekMath-V2。开源权重超过GPT-5、IMO金牌级别。这组众所周知的“三击”再次巩固了DeepSeek“开源灯塔”的地位。在计算能力有限的情况下,DeepSeek 再次证明,可以利用算法的奇迹来教会闭源巨头“处理”最苛刻的数学线索,而无需庞大的 GPU 集群。它“无错误”,让您直接了解竞争性数学的“权威试金石”,包括 2025 年国际数学奥林匹克 (IMO 2025) 和 CompePutnam 数学张力赛 (Putnam)。在严格的基准测试中,它的得分与 GPT-5 和 Gemini 相当。 2.5 Pro 照常进行od 或比完美答案更好。 1、性能强大:“碾压”人形DeepSeekMath-V2的AI到底有多强大?数据不会说谎:它是 IMO 2025 金牌得主,可与 Google OpenAI 相媲美。在2025年的基准测试中,DeepSeekMath-V2解决了6个问题中的5个,达到了“金牌”水平。结果直接比较了Google DeepMind和OpenAI的闭源模型。在此之前,这一级别的推理是商业秘密,被硅谷巨头严密保守:普特南竞赛:118分VS。人类最高分是90分。威廉·洛厄尔·普特南数学竞赛(Putnam)对于美国大学生来说可以说是一场噩梦。众所周知,它非常困难,得分平均值有时接近 0。研究团队使用 DeepSeekMath-V2 发现,它正确回答了 2024 年 Putnam 测试中 12 个问题中的 11 个问题,只有最后一个问题存在小缺陷,最终得分为 118 分(满分 120 分))。相比之下,人类玩家的最高分也只有90分左右。这显示了人工智能。他们不仅能记住问题,而且具有逻辑解决问题的能力,甚至超越了最优秀的人类玩家。此外,DeepSeekMath-V2 在代数和几何等五个关键数学领域的表现优于 GPT-5 和 Gemini 2.5 Pro。 2.显而易见:他为什么这么聪明?数学推理一直是人工智能的弱点,因为大规模模型很容易出现“严重的废话”(错觉问题)。我该如何解决这个问题?答案就是“元验证”技术。传统的人工智能训练“喂糖果”或对正确答案进行奖励。但在高级数学证明中,成对的答案并不代表成对的过程。人工智能很容易创建流程并找到正确的答案。不过,DeepSeek引入了一系列“左右交互”机制。换句话说,生成器就像一个学生,负责写下解决问题的步骤问题。检查员是主人,负责检查逻辑漏洞,不仅看答案,还要检查推导过程是否严谨。更令人惊讶的是,他们还训练了一名“二级检查员”来监控“大师”是否做出了正确的修正,以防止模型利用漏洞获取积分。这种递归验证结构确保模型学习真正的逻辑推理而不是机会主义。在推理阶段,模型不仅仅是说话。为您的问题生成 64 条可能的测试路径,使用验证器限定每条路径,并选择逻辑最严格的路径。这种“三思而后行”的模型是迈向通用人工智能(AGI)的重要一步。此外,DeepSeekMath-V2还创建了一个闭环数字生态系统,利用验证反馈直接优化生产质量,并使用自生成的c加速系统迭代。具有挑战性的训练样本。 3.最大的优点:开源!这才是真正让科技世界震动的原因。过去,OpenAI 和谷歌都选择闭源。您想使用一流的数学推理能力吗?仅在调用 API 时付费。数据不仅需要传输到云端,而且其使用也仅限于人类。但DeepSeek却直接改变了这一局面。模型权重可使用 Apache 2.0 协议公开下载。 Hugging Face 首席执行官 Clément Delangue 兴奋地发推文:“据我所知,还没有聊天机器人或 API 可以提供 IMO 黄金级模型。但今天情况发生了变化。Hugging Face 允许您直接下载 DeepSeek Math-V2 权重。”这意味着大学研究人员和企业开发人员可以在本地实现这个“数学天才”。任何人都可以在本地体验运行“奥数金牌”人工智能的快感,而无需担心数据隐私问题我看到了硅谷巨头的面孔。一夜之间,曾经被认为是竞争力核心的“推理护城河”成为了所有人都可以使用的基础设施。它一经发布,世界各地的播客和技术专家都决定尝试一下。英国科技博主兼程序员 Simon Willison 很快对 DeepSeek Math-V2 的推出进行了技术解读,强调它是一个开放权重模型。他还特别指出,OpenAI 和 Google 的等效模型约为 700G,相比之下 DeepSeek Math-V2 要小得多。 BinaryVerse 发布的一个播客,也称为 DeepSeekMath-V2,在一些数学推理基准上优于现有的大规模闭源模型,但该模型“在常识性问题和答案以及常见场景上全面领先”。 “我没有,”他说。 Hacker News 等社区也表达了他们对该模型指标和功能的个人看法。虽然许多人对此感到惊讶尽管该模型具有强大的功能,但其他人想知道是否可以将大量计算能力推理所提供的卓越指标转移到常见的使用场景中。许多评论强调了“令人惊讶但令人担忧”的速度,并讨论了该模型对更广泛的推理和安全性的影响。 4. 逆风投资:有限算力下的极致优化。 DeepSeek崛起背后的故事其实有点悲惨。 DeepSeek因芯片供应问题在计算硬件方面缺乏领先优势,其旗舰型号R2也因硬件兼容性问题而被迫推迟。但在这种极端压力下,DeepSeekMath-V2 证明了一件事。即算法创新可以弥补算力的不足。我们不是简单地依赖疯狂堆叠的 Nvidia GPU 集群,而是使用“冷启动”训练。这使得AI能够生成自己的训练数据,对其进行训练,并使用注释系统来消除对co的依赖巧妙地手动注释数据。 5. 结论 DeepSeekMath-V2 的发布证实了在通向 AGI 的道路上,开源模型没有落后,而是超越了它们。当硅谷出于“安全”原因仍在试图将其顶级模型锁在黑匣子中时,中国公司 DeepSeek 已慷慨地决定将其钥匙交给世界。这是所有AI从业者最好的时代。

admin

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注