← #794

Ben Thompson：AI 算力正在一分为三

文章摘要

Ben Thompson 在 Stratechery 这篇付费文里给”AI 算力是不是已经过剩”这场长期辩论提出一个新框架——Inference Shift（推理的分化）。他的核心论点是：AI 计算正在分裂成三种结构上完全不同的工作负载，未来不可能用同一种芯片把它们都吃下来。把所有讨论都套在”NVIDIA GPU 是不是要被替代”这个二元问题上，就会看不清真正在发生的事。

第一种是训练（Training）。这一块 GPU 还是绝对主角——需要大规模并行、超高带宽显存、芯片之间高速互联。无论怎么变，NVIDIA 在这一层的护城河短期不会动摇。

第二种是”回答型推理”（Answer Inference）：你问 ChatGPT 一个问题，要的是几百毫秒之内开始吐 token，越快越好。这一块速度是王道。Cerebras 这类公司专攻这层——它的内存带宽据 Thompson 引用是 H100 的 6000 倍，代价是单位价格也贵很多。

第三种、也是 Thompson 认为未来体量最大的——”代理型推理”（Agentic Inference）：agent 在背后跑长任务，不需要人盯着等回应。这一块的优化方向完全反过来：延迟不再重要，重要的是容量、context 和状态保持。便宜的 DRAM、老制程芯片、甚至能耐辐射的特殊硬件突然变得有意义——只要单位 token 成本足够低就行。

对各方的战略含义因此被改写：对 NVIDIA——它今天的统治建立在”延迟到处都重要”这个假设上，但代理型推理直接证伪了这个假设，”低成本+简单”会越来越吸引超大规模运营商（hyperscalers）。对 hyperscalers——他们获得了选择权，可以异构部署而不是必须押 H100/B200。对中国和太空数据中心——这两个被先进制程封锁或被物理条件限制的场景，恰好都能跑代理型推理。对 Moore’s Law——Thompson 抛出一句重锤：”如果你已经有足够多的算力了，那 Moore’s Law 就不重要了。”价值不再来自更快的芯片，而来自把现有算力用对地方。

HN 评论精华

这条 HN 帖只有 1 条实质评论（另两条已被删除），所以以下不是评论”精华”而是评论”全部”——也间接说明这种深度战略分析在 HN 早期讨论中阅读门槛偏高，但文章本身在产业内的传播路径主要是私域和 Twitter。

perarneng：抓住了文章里关于 Cerebras 之类”超快推理”芯片的暗线提了一个有意思的延伸——既然这些架构推理速度快得离谱，那就算模型本身略弱也无所谓：可以让它”先生成 10 个候选解，再排序选最好的一个”，端到端的总耗时和准确率组合下来，反而可能比一个更大的 LLM 跑一次还要好。这正是 Thompson “Answer Inference 优化目标 = 速度”那一支推理上能跑出来的产品形态——以多次采样 + 重新排名（rerank）换质量，对 Cerebras 这类硬件极其有利。
这条评论无意间也呼应了文章的更大命题：算力结构变了，模型架构和产品架构都会跟着变。当推理便宜到可以”一题答十次”时，”模型是否最聪明”作为竞争维度的权重会下降，而”系统层的编排”会上升——这又是 Benedict Evans 那张”价值上移到应用层”幻灯片的另一个注脚。