目前看到对DeepSeek真实水平最全面客观的分析 * 阿波罗新闻网
新闻 > 科教 > 正文
目前看到对DeepSeek真实水平最全面客观的分析

备注:本文是对SemiAnalysis最新一篇公开分析报告的全文翻译,译者张海军。

原文地址:https://semianalysis.com/2025/01/31/deepseek-debates/

深度求索的故事席卷全球深度求索(DeepSeek)的故事在全球引起了轰动。在过去的一周里,深度求索成了全球各界唯一的热议话题。

但对于密切关注这一领域的人来说,这其实并非什么“新鲜事”,令人瞩目的是人们对它的疯狂炒作。长期以来,SemiAnalysis一直认为深度求索极具天赋,但美国大众此前并不关注。当全世界终于开始关注时,却陷入了一种脱离现实的疯狂炒作。几个月来,我们一直在谈论深度求索(每个链接都是例证)。这家公司并不新。

我们想强调的是,舆论风向与上个月相比发生了逆转。上个月,当规模定律被打破时,有人认为这对英伟达(Nvidia)和 GPU不利;如今,又有人说算法改进速度过快。我们已经破除了这些谬论。

如今的舆论认为,深度求索效率极高,我们不再需要更多计算资源,而且由于模型的变化,现在一切都存在大量过剩产能。虽然杰文斯悖论(Jevons paradox)也被过度炒作了,但它更接近现实情况。这些模型已经对 H100和 H200的定价产生了实际影响,刺激了需求。

深度求索与 High-Flyer(幻方)High-Flyer是一家中国对冲基金,也是将人工智能应用于交易算法的早期 adopters。他们很早就意识到了人工智能在金融领域之外的潜力,以及规模化的关键意义。因此,他们不断增加 GPU的储备。在使用数千个 GPU集群对模型进行试验后,High-Flyer在2021年出口限制实施前投资购买了10000个 A100 GPU,这一举措取得了回报。随着 High-Flyer的发展,他们在2023年5月决定分拆出“深度求索”,目标是更专注地追求人工智能能力的进一步提升。当时,由于缺乏商业模式,外部投资者对人工智能兴趣寥寥,High-Flyer便自行出资成立了这家公司。如今,High-Flyer和深度求索经常共享人力和计算资源。

深度求索如今已发展成为一项认真且协同的事业,绝非许多媒体声称的“副业”。我们确信,即便考虑到出口管制因素,他们在 GPU上的投资也超过5亿美元。

GPU情况我们认为他们拥有约50000个 Hopper GPU,但这并不等同于50000个 H100,一些人存在这样的误解。英伟达为遵守不同规定,生产了 H100的多种变体(H800、H20),目前中国的模型供应商仅能获得 H20。需要注意的是,H800的计算能力与 H100相同,但网络带宽较低。

我们认为深度求索拥有约10000个 H800和10000个 H100。此外,他们还订购了更多 H20。在过去9个月里,英伟达生产了超过100万个专供中国的 GPU。这些 GPU由 High-Flyer和深度求索共享,并在一定程度上进行了地理分布。它们被用于交易、推理、训练和研究。如需更具体的详细分析,请参考我们的《加速器模型》。

深度求索人工智能的总拥有成本我们的分析显示,深度求索的服务器总资本支出接近13亿美元,运营这些集群的成本高达7.15亿美元。同样,所有人工智能实验室和超大规模数据中心为了各种任务(包括研究和训练),拥有的 GPU数量比单次训练所需的更多,因为资源集中存在一定挑战。X.AI作为一个人工智能实验室比较独特,它所有的 GPU都集中在一个地方。

深度求索只从中国招聘人才,不看重过往资历,高度关注能力和求知欲。他们经常在北京大学和浙江大学等顶尖大学举办招聘活动,招聘广告中甚至吹嘘员工能无限制使用数万个 GPU。他们极具竞争力,据说为有潜力的候选人提供超过130万美元的年薪,远超中国其他大型科技公司和人工智能实验室,如 Moonshot。他们目前约有150名员工,且规模还在迅速扩大。岗位角色不一定预先设定,招聘人员有一定灵活性。

历史表明,资金充足且专注的小型初创公司往往能突破极限。深度求索不像谷歌那样官僚主义,由于是自筹资金,他们能迅速将想法付诸实践。不过,和谷歌一样,深度求索(在很大程度上)运营自己的数据中心,不依赖外部机构或供应商。这为实验开辟了更多空间,使他们能够在整个技术栈上进行创新。

我们认为他们是目前最好的“开放权重”实验室,超过了 Meta的 Llama项目、Mistral等。

深度求索的成本与性能本周,深度求索的价格和效率引发了热潮,主要焦点是深度求索 V3的“600万美元”训练成本。但这是错误的。这就好比只看产品物料清单上的某一部分,却将其视为整个产品的成本。预训练成本只是总成本中很小的一部分。

训练成本我们认为预训练成本远非该模型的实际投入。我们确信,在公司发展历程中,他们在硬件上的花费远高于5亿美元。为了开发新的架构创新,在模型开发过程中,需要投入大量资金来测试新想法、新架构思路,并进行消融实验。开发和实现这些想法需要整个团队投入大量人力和 GPU计算时间。深度求索的关键创新——多头潜在注意力机制(Multi-Head Latent Attention),就耗费了数月时间。

论文中提到的600万美元成本仅指预训练运行的 GPU成本,这只是模型总成本的一部分。研发费用和硬件本身的总拥有成本等重要部分并未计算在内。参考一下,Claude3.5 Sonnet的训练成本高达数千万美元,如果这就是 Anthropic所需的全部成本,他们就不会从谷歌筹集数十亿美元,也不会从亚马逊筹集数百亿美元了。这是因为他们必须进行实验、提出新架构、收集和清理数据、支付员工工资等等。

那么深度求索是如何拥有如此庞大的集群的呢?出口管制的滞后是关键,下面在出口管制部分会详细讨论。

缩小差距——V3的性能V3无疑是一款令人印象深刻的模型,但值得注意的是,要明确它是相对于什么而言令人印象深刻。许多人将 V3与 GPT-4o进行比较,并强调 V3如何超越4o的性能。这确实没错,但 GPT-4o于2024年5月发布。人工智能发展迅速,从算法改进的角度来看,2024年5月恍如隔世。而且,经过一段时间后,用更少的计算资源实现相当或更强的能力,这并不令人意外。推理成本的下降是人工智能进步的一个标志。

责任编辑: 方寻  来源:傅里叶的猫/基本常识 转载请注明作者、出处並保持完整。

本文网址:https://d3lxuwvwo1hamd.cloudfront.net/2025/0201/2168825.html