返回 Writing

Report Board

Cerebras WSE：AI 推理的整片晶圆答案

Cerebras 用整张晶圆做芯片不是在造更好的 GPU，而是在换赛道；这个方向不可逆，对光模块、HBM 和半导体供应链的影响是结构性的。

CerebrasWSEAI InferenceOpticalHBMNVDA

Logic Chain

把影响拆成可复查链条

每张卡默认展开，只展示一个传导节点；没有折叠、点击或伪精确分数。

WSE 架构

单晶圆替代 GPU 集群

WSE 不是更好的 GPU，是换赛道——把整个 GPU 集群压缩到一张晶圆上。

GPU 数量减少

短距光模块需求下降

推理侧的架构优势不可逆，窗口期取决于先进封装 + CPO 的演进速度。

总 AI 流量增长

长距光模块需求上升

短距光模块和 HBM 是最直接的结构性受损方，长距相干光和 CPO 受益。

片上 SRAM 替代 HBM

存储供应链重构

台积电是这场变革里唯一确定能通吃的赢家。

投资文章

WSE 的核心答案：整片晶圆就是一颗芯片

Cerebras 的 Wafer-Scale Engine (WSE) 把一整张 12 英寸硅晶圆当成一颗芯片来做，而不是像 NVIDIA 那样把晶圆切成几百颗小 GPU 再用电线连回去。

WSE-3 使用 TSMC 5nm 工艺，集成了 4 万亿晶体管、90 万个 AI 优化核心、44GB 片上 SRAM，片上内存带宽 20 PB/s，核心间互联带宽 220 Pbps。

作为对比：一张 H100 有 800 亿晶体管、1.8 万核心、80MB 片上缓存、3.35 TB/s 内存带宽。WSE-3 在每一个关键维度上都是数量级的领先。

这不是'更好的 GPU'，这是把一个数据中心的计算能力压缩到了一张晶圆上。

为什么别人抄不了：三道工程壁垒

第一道：良率问题。晶圆上一定有缺陷。NVIDIA 的做法是把晶圆切开，扔掉有缺陷的小芯片。Cerebras 的做法是设计冗余——每个核心都能被旁路，让一整张有瑕疵的晶圆仍然可以当一颗完整芯片用。这是他们的核心专利墙。

第二道：散热问题。4 万亿晶体管挤在一张晶圆上，功耗密度是致命的。Cerebras 自研了独有的水冷和供电方案，这不是靠买现成散热模组能解决的。

第三道：光刻限制。光刻机的 reticle（曝光区域）远小于整张晶圆。芯片之间的互联需要在光刻边界'跨过去'，这是台积电都要配合改工艺的事。

这三个问题的解，每一个都是十年量级的工程积累。NVIDIA 即使今天决定'我也要做整片晶圆芯片'，没有 5-10 年根本出不来。

方向是否不可逆：推理侧是，训练侧不一定

'更大的计算单元 + 更快的互联'这个方向是不可逆的。整个行业的共识是芯片间通信是瓶颈，不是算力。

GPU 集群路线也在往同一个方向走：小芯片 → 先进封装 (CoWoS) → NVLink-C2C → 硅光子互联。趋势是把芯片越靠越近。

但关键问题是：台积电先进封装的演进速度能不能追上 Cerebras 单芯片集成的物理优势？能追上，Cerebras 的窗口期只有 3-5 年。追不上，它就是 AI 推理的标准答案。

对于推理这个特定场景，Cerebras 的架构优势会持续存在。因为推理对延迟敏感，而延迟最大的敌人就是'数据要在芯片之间跑来跑去'。训练可以靠堆更多 GPU 并行解决，推理不行——用户的耐心是有限的。

Cerebras 的投资逻辑不是'下一个 NVIDIA'，而是：AI 推理从 GPU 集群转向整片晶圆，是不是不可逆的方向？如果是，$347 亿 IPO 估值可能是地板价；如果不是，它就只是一个跑得更快的技术 demo，最终被 CUDA 生态吞掉。

光模块：结构性的利空，总量的利好

一张 Cerebras WSE 替代的是几十到上千张 GPU。减少的 GPU 数量意味着减少的 GPU-to-GPU 互联需求。以 NVIDIA 集群为例，一张 H100 需要配 4-6 个 800G 光模块做互联。如果用 Cerebras 方案，这部分短距光模块需求直接消失。

但同时，推理延迟降低 → 能跑更多推理任务 → AI 应用爆发 → 总计算量增长几十倍 → 数据中心之间的互联、数据中心到用户的网络需求井喷 → 长距离光模块需求增加。

具体来说：受损的是短距光模块（GPU-to-GPU 的 DAC/AOC，如 NVLink 配套的 800G/1.6T SR/DR 模块）。受益的是长距光模块（数据中心互联的相干光模块/ZR）。CPO（共封装光学）方向则是利好，因为 Cerebras 和 NVIDIA 都需要更好的光互联来突破带宽瓶颈。

对 A 股映射逻辑：中际旭创（800G/1.6T 光模块，主要供给 NVIDIA 集群）如果 Cerebras 市占率提升，核心订单逻辑受损。相干光模块厂商（光迅科技、德科立）长期受益于总带宽增长。

存储：HBM 最受伤，但故事有两面

GPU 方案需要在每张 GPU 旁边堆 HBM（H100 配 80GB HBM3，B200 配 192GB HBM3e）。WSE-3 片上 SRAM 有 44GB，片上带宽 20 PB/s，比 HBM 快三个数量级。如果模型热数据能放进片上 SRAM，根本不需要 HBM。

但有限制：44GB 装不下大模型。Llama 4 400B 的权重就几百 GB。Cerebras 仍然需要外部存储来装模型权重，只是热数据可以留在片上。这意味着 HBM 需求减少，但不会归零。

训练场景仍需大量外部存储——训练时要存储梯度、优化器状态、中间激活值，这些数据量远超片上 SRAM 容量。如果 Cerebras 从推理扩展到训练，外部存储需求反而会增加。

总结：HBM（SK 海力士/三星/美光）是最直接的利空，被片上 SRAM 替代。传统 DRAM (DDR5) 中性偏多，系统内存需求不受架构影响。NAND Flash 中性，训练数据和模型存储不受影响。SRAM（台积电先进制程）是利多——WSE 需要海量 SRAM，且只有先进制程能做。

产业链全景：谁赢谁输

赢家：台积电（WSE 和 GPU 都得找它做先进制程，左右通吃）；CPO/硅光子厂商（两个阵营都需要更好的光互联）；长距相干光模块厂商（总流量增长受益）；SRAM IP/设计服务商。

输家：短距光模块厂（GPU-to-GPU 互联需求减少）；HBM 供应商（被片上 SRAM 替代）；铜缆互联供应商（安费诺等，GPU-to-GPU 铜缆需求归零）。

中性：NAND/SSD 厂商（训练数据和模型存储不受架构影响）；传统服务器供应链（总计算量增长抵消单位算力的互联需求减少）。

一个反直觉的结论：Cerebras 如果真的成功，它颠覆的是 NVIDIA 的供应链（光模块厂、HBM 厂、铜缆厂），而不是台积电。台积电左右都赚钱。

结论与待复查项

Cerebras 的 WSE 架构代表了 AI 推理硬件的正确方向——更大的计算单元、更少的芯片间通信、更低的推理延迟。这个方向不可逆，但极端的实现形式（整张晶圆）不一定是最优解。窗口期取决于先进封装和硅光子的演进速度。

对投资者而言，Cerebras 本身（IPO 估值 $347 亿）需要在未来 3-5 年证明 WSE 不只是技术 demo，而是能在商业化规模上替代 GPU 集群。OpenAI 的 $200 亿+ 订单是最重要的第一个验证点。

对供应链投资者而言，关键判断是：短距光模块需求和 HBM 需求的结构性受损，是否被总 AI 流量增长带来的增量完全对冲。如果 Cerebras 的市占率在 2030 年前达到 10-15%，现有光模块和 HBM 龙头的估值逻辑需要重新审视。

Source Trail

Wafer-Scale Engine × AI 推理供应链影响

财报、公告、filings、估算表和可复查来源。

核心信号: 推理速度基准（vs Blackwell）、OpenAI $200亿+ 订单、先进封装演进速度 vs 单芯片集成、CPO/硅光子进度
当前判断: 推理侧的架构优势持续存在且窗口期至少 3-5 年；光模块短空长多，短距受损、长距受益；HBM 最直接受损；台积电左右通吃。
下一问题: WSE 的架构优势是否不可逆？光模块和存储会受多大冲击？谁在这场架构变革中最受伤、谁通吃？

核心结论

WSE 不是更好的 GPU，是换赛道——把整个 GPU 集群压缩到一张晶圆上。
推理侧的架构优势不可逆，窗口期取决于先进封装 + CPO 的演进速度。
短距光模块和 HBM 是最直接的结构性受损方，长距相干光和 CPO 受益。
台积电是这场变革里唯一确定能通吃的赢家。
Cerebras 本身的关键验证点：OpenAI 订单能否按时转化为收入，以及 WSE 能否从推理扩展到训练。

下次复查

OpenAI $20B+ order conversion to revenue

CS-3 inference benchmarks vs next-gen Blackwell

TSMC advanced packaging / CPO roadmap pace

Cerebras Q2 2026 first post-IPO earnings

Short-reach optical vendor order guidance shift

HBM contract renegotiation language from SK Hynix / Samsung