一块 NVIDIA H100 GPU,官方售价约 3 万美元。
这价格够买一辆入门级轿车,或者付一套三线城市房子的首付。
但问题不是太贵——是根本买不到。
2023年,全球 GPU 交货周期一度超过 52 周。也就是说,你现在下单,要等整整一年。黄牛市场上一块 H100 炒到 4-5 万美元,比官方价贵 60% 以上。
微软、Meta、谷歌、特斯拉——这些地球上最有钱的公司,都在疯狂扫货。马斯克接受采访时说了一个数字:特斯拉要把 GPU 搞到手,比买毒品还难(“harder to get than drugs”)。
这到底是怎么回事?一块显卡而已,为什么全世界的大公司都像在抢春运火车票?
GPU 可不是用来打游戏的
先说清楚一个概念:此 GPU 非彼 GPU。
你脑子里的 GPU,可能是你电脑里那张用来打《黑神话:悟空》的 RTX 4090。大公司在抢的 H100,虽然也叫 GPU,但完全不是同一个东西。
一张 RTX 4090 卖 1.5 万人民币,主要是给游戏玩家用的。一张 H100 卖 3 万美元(约 21 万人民币),是专门为 AI 训练设计的。两者最大的区别在于:
- RTX 4090:擅长画游戏画面,每秒能渲染 100 多帧 4K 图像
- H100:擅长做矩阵乘法,AI 训练效率是 4090 的 5-10 倍
打个比方:RTX 4090 是跑车,在平路上能跑到 300 公里/小时。H100 是 F1 赛车,看起来差不多,但上了赛道(AI训练),F1 的每个弯道都能把跑车甩出几条街。
具体到数字:训练一次 GPT-4 级别的模型,如果用 H100 需要大概 8000 张跑 100 天。如果用 RTX 4090,需要 10 万张,还要跑半年——而且你还得解决散热、连接、稳定性等等一大堆问题。
所以不是「随便买张显卡就能训 AI」,而是AI 训练这件事,对 GPU 有极其特殊的需求。
不是 GPU 紧缺,是高性能 GPU 紧缺
这就像全世界突然都想要钻石的时候,你在抢的不可能是鹅卵石。
一张 H100 的核心参数是什么?
- 800 亿个晶体管——比 5 年前的芯片多 5 倍
- HBM3 高带宽内存——每秒 3TB 的读写速度,相当于一秒钟下载 600 部蓝光电影
- Transformer 引擎——专门为 ChatGPT 这类模型的底层架构做硬件加速
- NVLink 互联——让 8 张 H100 像 1 张超大 GPU 一样工作
这些技术听起来有点绕,但核心意思只有一个:H100 天生就是为 AI 设计的,从芯片架构到内存到互联,全身上下每个零件都在服务一个目标——把大模型训练得又快又好。
全球能做出这种芯片的公司有几家?严格来说只有一家:NVIDIA。
AMD 的 MI300X 想打但配套工具链差点意思。英特尔还没赶上。华为昇腾 910B 性能相当但被制裁,买不到的量产不了。
所以市场的真实情况是:需求端,全世界的 AI 公司在疯抢;供应端,只有 NVIDIA 一家能量产。2023 年一整年,NVIDIA 卖出了约 50 万张 H100。听起来不少,但光是微软一家就拿走了 15 万张,Meta 拿走了 10 万张——剩下的才轮到全世界其他公司抢。
抢 GPU 到底有多疯狂?
我们不看 PPT 上的数字,看几个真实事件。
第一个事件:OpenAI 的「算力饥渴症」。
2023 年末,OpenAI 内部遇到一个大问题:GPT-5 的训练效率达不到预期。不是算法出问题了,是 GPU 不够。Sam Altman 做了个决定:暂停一部分 GPT-4 的商用服务,把算力优先给 GPT-5 的训练。这就是为什么那段时间 ChatGPT Plus 用户的响应速度慢了不少——GPU 被「内部征用」了。
第二个事件:马斯克的「绝密计划」。
2023 年 4 月,马斯克被曝出在 Twitter(现 X)内部秘密买了将近 1 万张 H100。你不是好奇 Twitter 的推荐算法为什么开始推视频了吗?因为马斯克要用这些 GPU 训练一个短视频推荐模型——直接跟 TikTok 打。更夸张的是,他为了确保 GPU 采购不被竞争对手知道,让团队在采购清单上把 H100 写成了「服务器配件」。
第三个事件:微软的「账本玄学」。
微软 2023 年给投资者看的财报里,资本支出(CapEx)暴涨了 50% 以上。分析师追问钱花哪了,微软 CFO 支支吾吾说「云基础设施」。实际上,绝大部分钱都买了 H100 和配套设备。光 2023 年一年,微软在 GPU 上的投入估计超过 200 亿美元——比很多国家一年的 GDP 还高。
这三个事件告诉你一件事:当全球最有钱、最聪明的公司都在为一个零件疯狂的时候,这一定不是普通的供应链问题。
为什么非要这么多?三辆车的比喻
你想理解大公司的算力需求,可以想象三个场景:
场景一:出租车(ChatGPT 日常推理) 你每次用 ChatGPT,后台都有一张 H100 在做实时推理。一次回答消耗的算力不大,但几亿用户同时用,需要的 GPU 数量是天文数字。就像出租车——每辆车拉的人不多,但全城同时跑就得上万辆。
场景二:训练赛车(大模型预训练) 训练 GPT-5 级别的模型,需要几千张 H100 同时跑几个月。这就像 F1 车队的测试——不开则已,一开就是整个车队几十人加上风洞、模拟器一起跑。算力不是按张算的,是千张集群、万卡集群起步。
场景三:实验卡车(研究探索) 大公司养着几百个研究员,每个人每天都在做各种实验:这个参数调一下、那个架构改一改、用这个数据试一下……这些实验 99% 最后没有用,但你需要那 1% 的成功。就像制药公司——试一千种分子,可能只有一种能成药。但你不能跳过那 999 次。
出租车、赛车、卡车同时在路上跑,需要的车辆数就是大公司眼中的「合理算力储备」。
为什么不自研芯片?
你肯定会问:既然 GPU 这么重要,为什么大公司不自己造芯片?
答案是——没那么简单。
谷歌做了(TPU),用了将近十年,内部 AI 团队用得不错,但对外卖不动,因为软件生态差 NVIDIA 太多。对,你没看错——NVIDIA 最厉害的不是硬件,是那个叫 CUDA 的软件生态。CUDA 像手机上的 iOS——硬件好是一回事,但开发者习惯在上面写代码了,你想换系统就得让所有人重新学,他们不干。
微软也试过(Athena 项目),但 2024 年传出消息进展不顺利,团队还裁了人。
亚马逊有 Inferentia/Trainium,但性能差距不小。
Meta 自研 MTIA,量还没起来。
要做出一块 H100 级别的芯片,技术上需要 3-5 年,资金上需要几十亿美元,软件生态建设需要更长时间。而且等你做出来了,NVIDIA 可能已经出到 H200、B100 了。
所以大公司算了一笔账:自研 + 等 3 年 vs 砸钱买 H100 + 现在就用。 在 AI 竞争每秒都在掉队的今天,绝大多数公司选择了后者。
GPU 短缺会结束吗?
可能会,但不会很快。
从供给端看,NVIDIA 的产能正在爬坡。2024 年预计出货量达到 200 万张 H100/H200,2025 年新一代 B100 也会放量。但需求端的增长更快——每个季度都有一批新的「AI 公司」成立,每个公司第一件事就是:买 GPU。
更关键的是:AI 模型的规模还没有停止增长的迹象。 GPT-4 用了约 1 万亿参数(据推测),下一代模型可能到 5-10 万亿。参数越多,需要的 GPU 越多。这是一个自我推动的飞轮:
- 更大的模型 → 需要更多 GPU
- 更多 GPU → 跑出更好的模型
- 更好的模型 → 吸引更多用户
- 更多用户 → 需要更多 GPU
所以 GPU 短缺不是芯片产能的问题,而是 AI 发展速度远超芯片制造速度的问题。也许 2026 年供需会相对平衡,但「天价 GPU」的时代可能还会持续好几年。
说人话总结
说来说去,GPU 抢购大战的本质是什么?
不是芯片稀缺。是 AI 时代的基础设施稀缺。
就像 19 世纪的铁路、20 世纪的油田——谁先铺好路、谁先占了地,谁就在接下来的时代里占据最有利的位置。今天的 GPU,就是 2000 年的英特网带宽、2010 年的云计算服务器。谁铺得多,谁就赢了下一局。
所以那 3 万美元一块的 H100,大公司眼里根本不是「显卡」,而是一张通往 AI 未来的入场券。
而入场券的数量,全球只有一个人(黄仁勋)说了算。
📖 本文是MST「30天AI科普专栏」第21篇 / 共25篇 🔖 分类:行业观察 关注MST,每天一个AI小知识,把大模型讲明白。