关键词:H100 价格飙升、补贴推理定价、出口管制、MLA
DeepSeek 全球热议
DeepSeek 在全球范围内引起了广泛关注。在过去的一周里,它成为了全球热议的唯一话题。目前,DeepSeek 的日流量远超 Claude、Perplexity,甚至 Gemini。
然而,对于该领域的密切关注者来说,这并非完全“新鲜”事。我们已讨论 DeepSeek 几个月(每个链接都是一个例子)。这家公司并不陌生,但炒作的热情却是新现象。SemiAnalysis 一直认为 DeepSeek 非常有才华,但美国更广泛的公众并不关注。当世界最终关注时,它以一种不反映现实的狂热炒作方式进行。
(adsbygoogle = window.adsbygoogle || []).push({});
我们想强调的是,这种说法与上个月相比发生了变化,当时 Scaling Laws 被打破,我们消除了这个误解,现在算法改进太快了,这在某种程度上对 Nvidia 和 GPU 也不利。
背景:2024 年 12 月 11 日 Scaling Laws – O1 Pro 架构、推理训练基础设施、Orion 和 Claude 3.5 Opus 的“失败”
现在的说法是,DeepSeek 非常高效,以至于我们不需要更多的计算,而且由于模型的变化,现在一切都出现了巨大的产能过剩。尽管杰文斯悖论也被过度炒作,但杰文斯更接近现实,这些模型已经诱发了需求,对 H100 和 H200 的定价产生了切实的影响。
DeepSeek 与 High-Flyer
High-Flyer 是一家中国对冲基金,也是在其交易算法中使用 AI 的早期采用者。他们很早就意识到 AI 在金融以外领域的潜力以及 Scaling 的关键洞察力。因此,他们一直在增加 GPU 的供应。在用数千个 GPU 的集群对模型进行试验后,High Flyer 在 2021 年投资了 10,000 个 A100 GPU *在任何出口限制之前。*这得到了回报。随着 High-Flyer 的改进,他们意识到是时候在 2023 年 5 月分拆“DeepSeek”了,目标是更专注地追求进一步的 AI 能力。High-Flyer 自行资助了该公司,因为当时外部投资者对 AI 没什么兴趣,主要担心的是缺乏商业模式。High-Flyer 和 DeepSeek 今天经常共享资源,包括人力和计算资源。
DeepSeek 现在已经发展成为一家严肃、协同努力的公司,绝不是许多媒体声称的“副业”。我们相信,即使考虑到出口管制,他们的 GPU 投资也超过 5 亿美元。
-
来源:SemiAnalysis, Lennart Heim
GPU 情况
我们认为他们可以使用大约 50,000 个 Hopper GPU,这与某些人声称的 50,000 个 H100 不同。Nvidia 制造了不同型号的 H100 以符合不同的法规 (H800、H20),目前只有 H20 可供中国的模型提供商使用。请注意,H800 与 H100 具有相同的计算能力,但网络带宽较低。
我们认为 DeepSeek 可以使用大约 10,000 个 H800 和大约 10,000 个 H100。此外,他们还订购了更多的 H20,Nvidia 在过去 9 个月中生产了超过 100 万个中国专用 GPU。这些 GPU 在 High-Flyer 和 DeepSeek 之间共享,并在一定程度上进行地理分布。它们用于交易、推理、训练和研究。有关更具体的详细分析,请参阅我们的加速器模型。
-
来源:SemiAnalysis
我们的分析表明,DeepSeek 的服务器总资本支出约为 16 亿美元,运营此类集群的相关成本高达 9.44 亿美元。同样,所有 AI 实验室和超大规模企业都有更多的 GPU 用于各种任务,包括研究和训练,而不是他们提交给单个训练运行的 GPU,因为资源的集中是一个挑战。X.AI 是一家独特的 AI 实验室,其所有 GPU 都位于 1 个位置。
DeepSeek 专门从中国采购人才,不考虑以前的资历,非常注重能力和好奇心。DeepSeek 定期在北京大学和浙江大学等顶尖大学举办招聘活动,许多员工都毕业于这些大学。职位不一定是预先定义的,招聘人员被赋予灵活性,招聘广告甚至吹嘘可以使用 10,000 多个 GPU 且没有使用限制。他们极具竞争力,据称向有前途的候选人提供超过 130 万美元的薪水,远高于竞争激烈的中国大型科技公司和 AI 实验室,如 Moonshot。他们有大约 150 名员工,但正在迅速增长。
历史表明,一个资金充足、专注的小型初创公司通常可以突破
暂无评论