Grok 3模型训练需要10万个GPU

2024-04-10

阅读量 1074

特斯拉首席执行官埃隆-马斯克对通用人工智能 (AGI) 的发展做出了一些大胆预测，并讨论了人工智能行业面临的挑战。

他预测AGI最早可能在明年或2026年超越人类智能，但训练需要大量GPU，而这又需要大量电力。

马斯克的企业 xAI 目前正在训练其Grok模型的第二版，预计5月份完成下一阶段的训练。

Grok 2模型的训练需要多达20,000个Nvidia H100 GPU，马斯克预计未来的迭代将需要更多资源，其中Grok 3模型需要大约100,000个Nvidia H100来训练。

马斯克表示，目前阻碍人工智能技术进步的主要因素有两个：先进处理器供应短缺（如英伟达的 H100，因为很难快速获得10万个GPU）和电力供应不足。

H100 GPU在充分利用时功耗约为700W，因此用于人工智能和HPC工作负载的10万个GPU可能消耗高达70万亿瓦的电力。

由于这些GPU需要服务器和冷却才能运行，可以肯定地说，一个拥有10万个H100处理器的数据中心将消耗约100万亿瓦的电力。这相当于一个小城市的用电量。

虽然GPU供应迄今为止一直是一个重大障碍，但电力供应在未来一两年内将变得越来越关键。

这种双重制约凸显了扩展人工智能技术以满足不断增长的计算需求挑战。

尽管面临挑战，但计算和内存架构的进步将使未来几年能够训练越来越庞大的大型语言模型 (LLM)。

Nvidia在GTC 2024上展示了Blackwell B200，这是一种GPU架构和平台，旨在扩展到具有数万亿个参数的LLM。这在AGI的发展中发挥关键作用。

事实上，马斯克相信，在未来一两年内将出现比最聪明的人类更聪明的人工智能。

“如果你将AGI定义为比最聪明的人类更聪明，我认为很可能在明年，两年内出现，”马斯克说。

这意味着现在显然是时候再看一遍《终结者》了，并希望我们未来的AGI霸主更友善。

点击此处关注，获取最新资讯！

1.本文整理自网络，如有侵权，请联系删除。

2.所刊内容仅代表作者观点，非闪德资讯立场。

请登录后评论