DeepSeek的下一代模型因Nvidia GPU对中国的出口限制而推迟

智能计算 时间:2025-06-27来源:

据 The Information 报道,DeepSeek 今年早些时候的 R1 AI 模型吸引了大量关注,但由于 Nvidia 的 H20 处理器在中国短缺,下一代 R2 模型的开发似乎已经停滞不前。DeepSeek 本身尚未对其 R2 模型何时可用发表评论。

DeepSeek 使用由 50000 个 Hopper GPU 组成的集群(包括 30000 个 H20、10000 个 H800 和 10000 个 H100),该 GPU 由其投资者 High-Flyer Capital Management 获得,用于训练其 R1 模型。目前尚不清楚 R2 是否已经完全预训练。The Information 报道援引两位熟悉该项目的人士的话说,DeepSeek 团队一直在深入研究该模型,但首席执行官梁文峰对其能力仍不满意。在批准模型进行部署之前,内部工作将继续进行以提高性能。

R1 迅速被广泛地采用,包括私营初创公司、大公司和政府附属团体。这些用户中的大多数在 Nvidia 的 H20 处理器上运行该模型。根据 The Information 报告,现在 H20 的发货受到限制,它已经造成了问题,限制了 R1 今天的使用方式,并使为 R2 的推出做准备变得更加困难。

据 The Information 援引 DeepSeek 公司的员工称,如果 DeepSeek 即将推出的 R2 模型的能力超过目前可用的开放替代方案,预计使用量将激增,超出中国云平台的处理能力。据说大多数依赖早期 R1 模型的组织都使用 Nvidia 的 H20 处理器来作它,而这些处理器现在供不应求。

美国政府在 4 月中旬限制了 Nvidia 用于 AI 训练和推理的 H20 处理器的销售。虽然该单元是流行的 H100 GPU 的严重缩减版本,但由于中国人工智能公司依赖 Nvidia 的 CUDA 软件堆栈,H20 在中华人民共和国的此类实体中是一个非常受欢迎的产品,Nvidia 每个季度销售价值数十亿美元的 H20 处理器。

据报道,DeepSeek 的 AI 软件针对 Nvidia 的硬件进行了优化,这使得该公司特别容易受到美国政策决策的影响。尽管该公司声称开发其模型使用的资源远少于 OpenAI 等美国公司,但最近的出口限制凸显了一个关键的弱点:中国的顶级 AI 公司仍然严重依赖美国硬件。与此同时,OpenAI 非正式地指责 DeepSeek 在 R1 开发过程中使用了其专有模型,尽管该公司尚未公开回应这些说法。

关键词: DeepSeek 下一代模型 Nvidia GPU

加入微信
获取电子行业最新资讯
搜索微信公众号:EEPW

或用微信扫描左侧二维码

相关文章

查看电脑版