Report Board
Cerebras WSE:AI 推理的整片晶圆答案
Cerebras 用整张晶圆做芯片不是在造更好的 GPU,而是在换赛道;这个方向不可逆,对光模块、HBM 和半导体供应链的影响是结构性的。
把影响拆成可复查链条
每张卡默认展开,只展示一个传导节点;没有折叠、点击或伪精确分数。
单晶圆替代 GPU 集群
WSE 不是更好的 GPU,是换赛道——把整个 GPU 集群压缩到一张晶圆上。
短距光模块需求下降
推理侧的架构优势不可逆,窗口期取决于先进封装 + CPO 的演进速度。
长距光模块需求上升
短距光模块和 HBM 是最直接的结构性受损方,长距相干光和 CPO 受益。
存储供应链重构
台积电是这场变革里唯一确定能通吃的赢家。
WSE 的核心答案:整片晶圆就是一颗芯片
Cerebras 的 Wafer-Scale Engine (WSE) 把一整张 12 英寸硅晶圆当成一颗芯片来做,而不是像 NVIDIA 那样把晶圆切成几百颗小 GPU 再用电线连回去。
WSE-3 使用 TSMC 5nm 工艺,集成了 4 万亿晶体管、90 万个 AI 优化核心、44GB 片上 SRAM,片上内存带宽 20 PB/s,核心间互联带宽 220 Pbps。
作为对比:一张 H100 有 800 亿晶体管、1.8 万核心、80MB 片上缓存、3.35 TB/s 内存带宽。WSE-3 在每一个关键维度上都是数量级的领先。
这不是'更好的 GPU',这是把一个数据中心的计算能力压缩到了一张晶圆上。
为什么别人抄不了:三道工程壁垒
第一道:良率问题。晶圆上一定有缺陷。NVIDIA 的做法是把晶圆切开,扔掉有缺陷的小芯片。Cerebras 的做法是设计冗余——每个核心都能被旁路,让一整张有瑕疵的晶圆仍然可以当一颗完整芯片用。这是他们的核心专利墙。
第二道:散热问题。4 万亿晶体管挤在一张晶圆上,功耗密度是致命的。Cerebras 自研了独有的水冷和供电方案,这不是靠买现成散热模组能解决的。
第三道:光刻限制。光刻机的 reticle(曝光区域)远小于整张晶圆。芯片之间的互联需要在光刻边界'跨过去',这是台积电都要配合改工艺的事。
这三个问题的解,每一个都是十年量级的工程积累。NVIDIA 即使今天决定'我也要做整片晶圆芯片',没有 5-10 年根本出不来。
方向是否不可逆:推理侧是,训练侧不一定
'更大的计算单元 + 更快的互联'这个方向是不可逆的。整个行业的共识是芯片间通信是瓶颈,不是算力。
GPU 集群路线也在往同一个方向走:小芯片 → 先进封装 (CoWoS) → NVLink-C2C → 硅光子互联。趋势是把芯片越靠越近。
但关键问题是:台积电先进封装的演进速度能不能追上 Cerebras 单芯片集成的物理优势?能追上,Cerebras 的窗口期只有 3-5 年。追不上,它就是 AI 推理的标准答案。
对于推理这个特定场景,Cerebras 的架构优势会持续存在。因为推理对延迟敏感,而延迟最大的敌人就是'数据要在芯片之间跑来跑去'。训练可以靠堆更多 GPU 并行解决,推理不行——用户的耐心是有限的。
Cerebras 的投资逻辑不是'下一个 NVIDIA',而是:AI 推理从 GPU 集群转向整片晶圆,是不是不可逆的方向?如果是,$347 亿 IPO 估值可能是地板价;如果不是,它就只是一个跑得更快的技术 demo,最终被 CUDA 生态吞掉。
光模块:结构性的利空,总量的利好
一张 Cerebras WSE 替代的是几十到上千张 GPU。减少的 GPU 数量意味着减少的 GPU-to-GPU 互联需求。以 NVIDIA 集群为例,一张 H100 需要配 4-6 个 800G 光模块做互联。如果用 Cerebras 方案,这部分短距光模块需求直接消失。
但同时,推理延迟降低 → 能跑更多推理任务 → AI 应用爆发 → 总计算量增长几十倍 → 数据中心之间的互联、数据中心到用户的网络需求井喷 → 长距离光模块需求增加。
具体来说:受损的是短距光模块(GPU-to-GPU 的 DAC/AOC,如 NVLink 配套的 800G/1.6T SR/DR 模块)。受益的是长距光模块(数据中心互联的相干光模块/ZR)。CPO(共封装光学)方向则是利好,因为 Cerebras 和 NVIDIA 都需要更好的光互联来突破带宽瓶颈。
对 A 股映射逻辑:中际旭创(800G/1.6T 光模块,主要供给 NVIDIA 集群)如果 Cerebras 市占率提升,核心订单逻辑受损。相干光模块厂商(光迅科技、德科立)长期受益于总带宽增长。
存储:HBM 最受伤,但故事有两面
GPU 方案需要在每张 GPU 旁边堆 HBM(H100 配 80GB HBM3,B200 配 192GB HBM3e)。WSE-3 片上 SRAM 有 44GB,片上带宽 20 PB/s,比 HBM 快三个数量级。如果模型热数据能放进片上 SRAM,根本不需要 HBM。
但有限制:44GB 装不下大模型。Llama 4 400B 的权重就几百 GB。Cerebras 仍然需要外部存储来装模型权重,只是热数据可以留在片上。这意味着 HBM 需求减少,但不会归零。
训练场景仍需大量外部存储——训练时要存储梯度、优化器状态、中间激活值,这些数据量远超片上 SRAM 容量。如果 Cerebras 从推理扩展到训练,外部存储需求反而会增加。
总结:HBM(SK 海力士/三星/美光)是最直接的利空,被片上 SRAM 替代。传统 DRAM (DDR5) 中性偏多,系统内存需求不受架构影响。NAND Flash 中性,训练数据和模型存储不受影响。SRAM(台积电先进制程)是利多——WSE 需要海量 SRAM,且只有先进制程能做。
产业链全景:谁赢谁输
赢家:台积电(WSE 和 GPU 都得找它做先进制程,左右通吃);CPO/硅光子厂商(两个阵营都需要更好的光互联);长距相干光模块厂商(总流量增长受益);SRAM IP/设计服务商。
输家:短距光模块厂(GPU-to-GPU 互联需求减少);HBM 供应商(被片上 SRAM 替代);铜缆互联供应商(安费诺等,GPU-to-GPU 铜缆需求归零)。
中性:NAND/SSD 厂商(训练数据和模型存储不受架构影响);传统服务器供应链(总计算量增长抵消单位算力的互联需求减少)。
一个反直觉的结论:Cerebras 如果真的成功,它颠覆的是 NVIDIA 的供应链(光模块厂、HBM 厂、铜缆厂),而不是台积电。台积电左右都赚钱。
结论与待复查项
Cerebras 的 WSE 架构代表了 AI 推理硬件的正确方向——更大的计算单元、更少的芯片间通信、更低的推理延迟。这个方向不可逆,但极端的实现形式(整张晶圆)不一定是最优解。窗口期取决于先进封装和硅光子的演进速度。
对投资者而言,Cerebras 本身(IPO 估值 $347 亿)需要在未来 3-5 年证明 WSE 不只是技术 demo,而是能在商业化规模上替代 GPU 集群。OpenAI 的 $200 亿+ 订单是最重要的第一个验证点。
对供应链投资者而言,关键判断是:短距光模块需求和 HBM 需求的结构性受损,是否被总 AI 流量增长带来的增量完全对冲。如果 Cerebras 的市占率在 2030 年前达到 10-15%,现有光模块和 HBM 龙头的估值逻辑需要重新审视。
Wafer-Scale Engine × AI 推理供应链影响
财报、公告、filings、估算表和可复查来源。
- 核心信号
- 推理速度基准(vs Blackwell)、OpenAI $200亿+ 订单、先进封装演进速度 vs 单芯片集成、CPO/硅光子进度
- 当前判断
- 推理侧的架构优势持续存在且窗口期至少 3-5 年;光模块短空长多,短距受损、长距受益;HBM 最直接受损;台积电左右通吃。
- 下一问题
- WSE 的架构优势是否不可逆?光模块和存储会受多大冲击?谁在这场架构变革中最受伤、谁通吃?
WSE 不是更好的 GPU,是换赛道——把整个 GPU 集群压缩到一张晶圆上。
推理侧的架构优势不可逆,窗口期取决于先进封装 + CPO 的演进速度。
短距光模块和 HBM 是最直接的结构性受损方,长距相干光和 CPO 受益。
台积电是这场变革里唯一确定能通吃的赢家。
Cerebras 本身的关键验证点:OpenAI 订单能否按时转化为收入,以及 WSE 能否从推理扩展到训练。
OpenAI $20B+ order conversion to revenue
CS-3 inference benchmarks vs next-gen Blackwell
TSMC advanced packaging / CPO roadmap pace
Cerebras Q2 2026 first post-IPO earnings
Short-reach optical vendor order guidance shift
HBM contract renegotiation language from SK Hynix / Samsung