cpo
https://avicena.tech/ 这家公司用完全不同的技术,他们这个方案的带宽数量级上限在哪里?瓶颈是哪个具体要素(比如单通道速率还是光纤束的密度或其他)?有没有其他方面的上限?你如何分析他们这个路线的最佳甜点场景,为什么?相比传统的光传输技术在哪个场景下有最大的(倍数)优势?如果把他放在今天的行业主流CPO roadmap相比较,他会是一个什么样的位置?总之详细分析这条技术路线的价值,甜点场景和主要技术和工程挑战。
Avicena 技术路线深度分析
技术本质:空分复用(SDM)替代波分复用(WDM)
Avicena 的 LightBundle 走了一条与主流硅光子(silicon photonics)完全正交的技术路线。核心思路是:不追求单通道的高速率,而是用大量低速并行通道(massive parallelism)堆叠带宽。
| 维度 | Avicena LightBundle | 主流硅光 CPO(Broadcom/NVIDIA/Ayar) |
|---|---|---|
| 光源 | GaN microLED 阵列(可见光波段,~450 nm 蓝光) | InP/III-V 激光器(近红外 1310 nm) |
| 调制方式 | microLED 直接调制(direct modulation),简单 NRZ | 外调制(MZM/MRM/EAM),PAM4 或 NRZ |
| 单通道速率 | 2–10 Gbps(当前实测 4 Gbps 已验证) | 25–200 Gbps |
| 带宽扩展策略 | 空分复用(SDM):几百到几千根并行多芯光纤(multicore fiber),每根走一个低速通道 | 波分复用(WDM):4–64 个波长在单根光纤中 × 高速率/λ |
| 光纤类型 | 多模多芯光纤束(multicore multimode fiber bundle) | 单模光纤(single-mode fiber),少数方案用多模 |
| 传输距离 | <10 米(多模光纤限制) | 单模:2 km+;多模:<300 m |
| SerDes 需求 | 不需要——直接把芯片内部 ~2 Gbps 的并行总线原样送出 | 需要高速 SerDes(112G/224G PAM4) |
| FEC 需求 | 不需要——NRZ @4 Gbps 已达 BER <10⁻¹² | PAM4 方案必须 FEC |
| 功耗 | <1 pJ/bit(目标 ~0.2 pJ/bit,已演示 Tx 80 fJ/bit) | ~3–13 pJ/bit(含 SerDes + E-O + FEC) |
| 温度范围 | -40°C 到 +125°C(GaN 天然耐高温) | 激光器对温度敏感(需要热控) |
| CMOS 兼容性 | 极好——microLED 可直接 bonding 到任何 CMOS 工艺 IC 上 | 硅光需专用代工平台(GF/TSMC/Tower) |
一句话说清楚:硅光 CPO 是"少数通道 × 极高速率",Avicena 是"极多通道 × 低速率"——两者追求的总带宽可以在同一量级,但工程实现的逻辑完全不同。
带宽上限和瓶颈分析
当前已验证的带宽
- 单通道 4 Gbps NRZ,BER <10⁻¹² without FEC(SC25 演示)
- 单通道路线图 10 Gbps NRZ
- 单 chiplet 岸线密度 >1 Tbps/mm(已公开),路线图 10 Tbps/mm²
理论带宽上限计算
带宽 = 单通道速率 × 并行通道数
瓶颈 1:单通道速率——上限 ~10–20 Gbps
microLED 的调制带宽受限于载流子寿命(carrier lifetime)。GaN microLED 的 3dB 带宽典型值:
- 大尺寸 LED(>20 μm):~1 GHz → ~2 Gbps NRZ
- 中等尺寸(5–8 μm):~3–5 GHz → ~6–10 Gbps NRZ
- 极小尺寸(2 μm):已演示 ~5 GHz+ → 理论 ~10–15 Gbps NRZ
- 用 PAM4 可翻倍到 ~20–30 Gbps,但牺牲了"无需 FEC"的简洁性
单通道速率的硬上限约 10–20 Gbps NRZ——这比激光器的几十到几百 Gbps 低一个量级。这是 LED 物理的根本约束(LED 是自发辐射 spontaneous emission,不像激光器有受激辐射 stimulated emission 的快速响应)。
瓶颈 2:并行通道数——核心瓶颈是光纤束密度和连接器
如果单通道 4 Gbps,要达到 1 Tbps 需要 250 根并行光纤。要达到 10 Tbps 需要 2,500 根。
多芯光纤(multicore fiber,MCF)可以在一根光纤护套内封装多根纤芯:
- 当前商用 MCF:7–19 芯
- 研究级 MCF:100+ 芯
- 光纤束(ribbon cable):可做到 100–1000+ 根光纤的带状或圆形束
真正的瓶颈是连接器和光纤管理。250 根光纤的对接(每根需要精确对准到 microLED/PD 阵列的对应元素)比 8–16 根光纤的 WDM 方案复杂得多。Avicena 用"面阵耦合"(surface-normal coupling,微LED 垂直发光直接对准光纤束)来简化对准——但大规模量产时的成本和良率仍是未知数。
瓶颈 3:die 面积——microLED 和 PD 阵列占地
250 通道的 microLED 阵列 + PD 阵列需要多大面积?
- 单个 microLED pitch ~5–10 μm
- 250 个 microLED 如果排成方阵 ~16×16 → 阵列面积 ~(16×10μm)² ≈ 0.025 mm²
- 这比硅光的 MZM(每个 ~2–5 mm 长)紧凑 100–1000 倍
LED 阵列面积不是瓶颈。但对应的驱动电路(driver)和 TIA 电路面积会更大。
带宽上限汇总
| 场景 | 单通道 | 通道数 | 总带宽 | 限制因素 |
|---|---|---|---|---|
| 当前产品(2025–2026) | 4 Gbps | 256 | 1 Tbps | 4 Gbps/lane 已验证 |
| 近期路线图(2027–2028) | 10 Gbps | 256–1,024 | 2.5–10 Tbps | 单通道提速到 10G + 更多芯数 MCF |
| 理论极限 | 10–20 Gbps | 1,000–10,000 | 10–100+ Tbps | 光纤束连接器密度和成本 |
核心瓶颈不是单通道速率(这个 LED 物理决定了),而是多通道光纤束的连接、管理和成本能否规模化。 如果光纤束技术(MCF + 面阵连接器)成熟,Avicena 的带宽可以远超当前任何硅光方案。
最佳甜点场景分析
Avicena 的技术特性(低速、大并行、低功耗、无 SerDes、无 FEC、短距、宽温)定义了它的最佳和最差场景:
最佳场景 1:HBM 内存接口的光学延伸(Memory Interface Extension)
为什么最甜:
HBM 的本质是什么?是 1024-bit 宽的低速并行总线(每 lane ~3.2–6.4 Gbps),走 TSV + 硅中介层,距离 <5 mm。
Avicena 的 LightBundle 是什么?是几百 bit 宽的低速并行总线(每 lane ~4–10 Gbps),走多芯光纤,距离 <10 m。
两者的匹配度极高——Avicena 可以"把 HBM 总线延伸到 10 米之外",本质上实现 optical HBM。不需要 SerDes 序列化/反序列化、不需要 FEC、延迟极低(~几 ns 的 LED 调制延迟 + 光传播 5 ns/m),功耗 <1 pJ/bit(vs HBM 物理层 ~1–3 pJ/bit)。
Avicena CEO Bardia Pezeshki 在 ECOC 2025 的演讲中明确说:"HBM memory interfaces are one of the next great frontiers for optical interconnects and ideally require wide buses with minimal latency."
对比优势:
| 维度 | Avicena(optical HBM 延伸) | 硅光 CPO(做内存互联) |
|---|---|---|
| 匹配内存总线宽度 | 天然匹配——直接映射 1024-bit 并行总线 | 必须先 SerDes 序列化到少数高速通道,再反序列化——增加延迟和功耗 |
| 延迟开销 | ~5–10 ns(LED 直接调制 + 光传播) | ~20–50 ns(SerDes + E-O + FEC + O-E + SerDes) |
| 功耗 | <1 pJ/bit | ~5–13 pJ/bit |
| 距离 | <10 m | 1 m–2 km(但短距优势不明显) |
这是 Avicena 相对于硅光方案有最大倍数优势的场景——在功耗上 5–13 倍优势,在延迟上 2–5 倍优势,在与并行总线的匹配度上是质的差异。
最佳场景 2:Scale-up GPU 互联(<10m 机柜内/跨柜)
当前 NVLink 72 用铜缆(<2m),功耗 ~10 pJ/bit。下一代需要跨机柜(>2m),铜不行,需要光。
硅光 CPO 可以做这个——但需要 224G PAM4 SerDes + DSP/FEC,系统复杂度高。
Avicena 的方案:几百到几千根并行 microLED 链路替代 NVLink 铜缆,保持并行总线的简洁性。不需要协议转换——NVLink 的内部并行信号直接映射到 LightBundle 的并行光通道。
优势:功耗低 5–10 倍;延迟低 2–3 倍(无 SerDes/FEC 开销);温度适应性好(GPU 附近高温环境)。
挑战:光纤束管理在数据中心的可维护性;NVIDIA 是否愿意为 NVLink 光学化采用非自有技术。
最差场景:长距传输(>100m DCI/metro)
microLED 使用多模光纤,距离限制在 ~10 米。不适合数据中心间互联(DCI)或 metro 场景。这些场景需要单模光纤 + 高速 WDM,是硅光的天然地盘。
与行业主流 CPO roadmap 的位置关系
传输距离 →
<1cm 1cm-2m 2m-10m 10m-100m >100m
│ │ │ │ │
高速率 │ HBM │ 铜缆 │ 硅光CPO │ pluggable │ coherent
少通道 │ TSV │ NVLink │ NVIDIA/ │ LPO/DSP │ optics
│ │ copper │ Broadcom │ │
│────────│──────────│──────────│────────────│──────────
低速率 │ 片上 │ │ │ │
多通道 │ 互联 │ │ **Avicena │ │
│ │ **Avicena│ LightBundle│ │
│ │ LightBundle** (sweetspot) │
│ │ │ │ │
Avicena 占据的是 1cm–10m 距离段内的"低速大并行"niche——这个 niche 恰好是当前铜缆和硅光之间的"缝隙"。铜缆在 >2m 时功耗太高、速率受限;硅光在 <10m 时有"大炮打蚊子"的过度设计问题(你不需要 224G PAM4 + FEC 来传 10 米)。
位置判断:Avicena 不是硅光 CPO 的竞争对手——它是互补技术。硅光解决的是 10m–2km 的高速 WDM 传输问题;Avicena 解决的是 1cm–10m 的超低功耗并行传输问题。两者可以共存在同一个系统中:Avicena 做机柜内/跨柜的 scale-up 互联(替代铜),硅光 CPO 做跨 pod/跨数据中心的 scale-out 互联。
主要技术和工程挑战
| 挑战 | 严重性 | 详情 | 应对状态 |
|---|---|---|---|
| 光纤束连接器的规模化制造和成本 | 🔴 最大 | 250–1000 根光纤的面阵对准连接器没有成熟的商用供应链。每次插拔需要 250+ 路同时对准。目前 MPO/MTP 最高 72 芯,Avicena 需要的是 250–1000 芯级别。 | 正在与光纤厂商(可能包括 Sumitomo、Corning)开发专用 MCF bundle 和连接器 |
| 多模光纤的距离限制(~10m) | 🟡 结构性 | 多模光纤的模式色散限制了传输距离。即使用 MCF 也无法突破 ~10–30m 的物理极限。这是不可逾越的硬约束——Avicena 永远做不了 100m+ 的链路。 | 接受这个限制——专注 <10m 场景 |
| 单通道速率的物理上限 | 🟡 结构性 | LED 的自发辐射响应时间限制单通道 ~10–20 Gbps。无法与激光器的 50–200 Gbps 竞争。 | 通过增加通道数补偿——但这又回到光纤束密度问题 |
| GaN microLED 的批量制造和良率 | 🟡 重要 | 2 μm 尺寸的 microLED 阵列制造是 LED 行业的前沿问题。Avicena 2022 年收购了 Nanosys/glō 的 GaN fab(前期投资 >$2 亿)。TSMC 也宣布为 Avicena 代工光电探测器。 | 有自有 fab + TSMC 合作,制造能力正在建设 |
| 与现有 ASIC 接口的标准化 | 🟡 重要 | Avicena 声称支持 UCIe 和 BoW 接口,但目前没有 ASIC 公司在产品中原生支持 LightBundle。需要 ASIC 侧的 PHY 适配。 | 正在与 hyperscaler 合作优化 |
| PD(光电探测器)灵敏度 | 🟢 已解决 | microLED 输出功率低(μW 级),需要高灵敏度 PD。Avicena 用改造的 CMOS camera sensor 工艺做 PD,灵敏度足够。ECOC 2025 演示了 200 fJ/bit Tx 功率下 BER <10⁻¹²。 | 已验证 |
| 温度稳定性 | 🟢 天然优势 | GaN microLED 在 -40°C 到 +125°C 性能稳定——比 InP 激光器好一个量级。不需要 TEC 或温度反馈控制。 | 天然解决 |
倍数优势量化
在最佳甜点场景(1cm–10m 并行 die-to-die 互联)中,Avicena 相对于不同方案的倍数优势:
| 对比方案 | 功耗优势 | 延迟优势 | 复杂度优势 | 劣势 |
|---|---|---|---|---|
| vs 铜缆 SerDes(224G PAM4,2–10m) | 10–50×(<1 vs 10–50 pJ/bit) | 5–10×(无 SerDes/FEC 延迟) | 极大(无 SerDes、无 retimer) | 光纤束管理 vs 铜缆的简便性 |
| vs 硅光 CPO(NRZ 25G×16λ WDM) | 3–10×(<1 vs 3–13 pJ/bit) | 2–5×(无需 MZM/MRM 调制+FEC) | 中等(无需硅光代工、无需 ELS) | 单通道速率低;无法做 >10m |
| vs HBM TSV(1024-bit @6.4 Gbps) | ~1×(接近) | ~3–5×(可延伸到 10m 而非 5mm) | 消除 CoWoS interposer 需求 | 比 HBM 多了光纤束;总带宽密度可能不如 |
| vs UCIe 电互联(<50mm on-package) | ~2–5× | ~1×(两者都很低延迟) | 可延伸到 10m 而非 50mm | UCIe on-package 在 <50mm 内更简单 |
最大倍数优势出现在"替代 2–10m 铜缆 SerDes"场景——功耗优势 10–50 倍,这是因为铜缆在这个距离上必须用高速 SerDes + retimer,而 Avicena 完全绕过了这两者。
综合价值判断
Avicena 是一个技术非常有趣、场景定义非常精确的方案,但面临"鸡肋"风险。
"有趣"在于:它用了一条完全不同的物理路径(LED 而非 laser,SDM 而非 WDM,并行而非串行),在 <10m 距离上实现了比硅光低 5–10 倍的功耗和延迟。这不是工程优化——这是物理路线的根本差异。
"精确"在于:它的甜点场景非常明确——HBM 接口光学延伸、机柜内 scale-up GPU 互联。这些场景的总体需求是真实且巨大的。
"鸡肋"风险在于:
-
10m 距离限制是死刑——它永远不能替代硅光在 scale-out 网络中的角色。CPO 的主流 TAM(交换机端口、DCI)它碰不到。
-
生态弱势——NVIDIA/Broadcom/TSMC 已经围绕硅光+激光器建立了庞大的生态(COUPE、UCIe 光学、CW-WDM MSA)。Avicena 的 microLED 方案需要一个完全不同的供应链(GaN fab、MCF 光纤、面阵连接器),这个供应链目前不存在。
-
竞争窗口可能比看上去窄——Avicena 瞄准的 1cm–10m 场景,铜缆还在快速进步(Eliyan NuLink 试图把铜推到 >10cm without retimer),而硅光也在快速降功耗(Broadcom 目标 sub-1 pJ/bit CPO)。如果硅光在 2028 年达到 <1 pJ/bit,Avicena 的功耗优势就消失了。
-
TSMC 的投资是双刃剑——TSMC 为 Avicena 代工 PD,这验证了技术价值,但 TSMC 同时也在大力推进自己的 COUPE 硅光平台。TSMC 不太可能在自己的先进封装产品线中优先推荐 Avicena 而非 COUPE。
最终判断:Avicena 的最佳结局是被需要光学 HBM 延伸能力的大公司收购(SK hynix 是 Series B 投资者——SK hynix 是全球第二大 HBM 制造商,这个信号很明确)。作为独立公司长期存活面临的挑战是:5–7 亿/年 TAM 的 niche 市场(microLED interconnect 预计 2033 年 ~$7.2 亿),回报倍数有限。但如果 HBM 光学延伸成为标准做法(正如 Celestial AI/Marvell 已经验证的内存光互联方向),Avicena 的技术在这个子场景中确实可能是最优解——因为它天然匹配并行宽总线、无需 SerDes 的内存接口特性。
回到CPO为核心的话题。当前阶段你认为对于CPO创业,在技术路线上的主要差异化点在哪里?有人说是微环方案,有人认为还是MZM调制器,有人认为一定要薄膜铌酸锂。我需要你: 1)梳理你认为从时间线顺序,最先被应用的CPO(含广义的NPO和OIO)应用场景,上新技术的驱动力和潜在的客群,他们的核心诉求和痛点,以及潜在的规模; 2)梳理不同时间线的新应用所必然要逐个突破的CPO核心技术瓶颈,以及相应量所能突破的成本瓶颈和降本潜力,对应的量价关系 3)对你看到的在宏观层面和微观层面的创新技术差异点、创新工艺差异点进行梳理和排序,无论是特别高端的broadcom或TSMC的超高性能超高价格子系统设计或工艺方案,还是有70/80分的平价技术路径和方案,他们所要最突出的差异点是什么,什么商业情境下这个差异点最有价值,和什么诉求的客户最匹配。 4)你认为这个阶段CPO创业者最需要具备的各方面认知和底层believe是哪些?哪些使得他们有足够的方方面面的能力应对市场千变万化的,甚至pivot最早的技术路线选择和roadmap也有机会成功的认知。 用逻辑化、结构化、事实和数据支撑的方式分析问题,组织你的回答。
这个问题是整个 CPO 讨论的"战略收束"。我按你要求的四个维度逐一展开。
一、CPO 应用场景的时间线排序
第一波(2025–2027):Scale-out 交换机 CPO
场景:数据中心 Ethernet/InfiniBand 交换机从 pluggable 迁移到 CPO。800G→1.6T 端口速率。
驱动力:交换芯片的 SerDes 功耗墙。51.2T→102.4T→409.6T 交换容量,pluggable 方案下光模块功耗占系统 30%+。Jensen Huang 在 GTC 2025 的算术:百万 GPU 需要 600 万个 pluggable,消耗 180 MW 光模块功耗。
客户:NVIDIA(Spectrum-X/Quantum-X 已发布)、Broadcom(三代 CPO 已量产)、Meta(百万设备小时零 link flap 验证完成)、CoreWeave/Lambda(已宣布采用 NVIDIA CPO switch)。
核心诉求:功耗降 65%+、link flap 消除(训练效率从 ~85% 提升到 >90%)、前面板密度突破。
痛点:不可热插拔的运维顾虑;CPO 光引擎的 OAM 标准化缺失;ELS 激光器的多源互操作。
规模:Broadcom TH5-Bailly 已量产出货,TH6-Davisson 2025Q4 early access。NVIDIA Quantum-X IB 2025H2、Spectrum-X Ethernet 2026H2。IDTechEx 预测 CPO 市场 2026 年起 37% CAGR,2036 年 >150 亿。这一波的量:2026 年数万端口,2027 年数十万端口,2028 年百万端口级。
创业者机会:有限。Broadcom 和 NVIDIA 垂直整合了 ASIC+光引擎,创业公司很难切入 switch CPO 本身。机会在组件层:ELS 激光器(CW-WDM MSA 标准化后的 multi-source 需求)、光纤阵列/连接器(Corning/Senko 之外的新进入者)、测试设备(晶圆级光测试是公认瓶颈)。
第二波(2027–2029):Scale-up 光互联(GPU/XPU 间光学连接)
场景:当前 NVLink over copper 的 scale-up domain 从单机柜(NVL72,~2m 铜缆)扩展到多机柜(NVL576+,>2m 需要光),以及 UALink/UEC 开放生态的 scale-up 光互联。
驱动力:铜缆在 >2m、>800 Gbps 时的物理极限。NVIDIA 的 Kyber rack 架构和 Feynman 路线图明确需要光学 NVLink。Marvell $3.25B 收购 Celestial AI 就是为了这个场景。
客户:NVIDIA(自研 NVLink optical,但可能开放供应链)、AMD(UALink 生态,已投资 Ayar Labs 和 Celestial AI)、Google/Amazon/Meta 的自研 XPU 团队(TPU/Trainium/MTIA 需要 scale-up 光互联但不想绑定 NVIDIA)。
核心诉求:<5 pJ/bit 的 die-to-die 光互联(当前 NVLink copper ~10 pJ/bit);延迟与 copper 相当(<100 ns roundtrip @2–10m);协议透明性(能跑 NVLink/UALink/CXL)。
痛点:UCIe 光学扩展标准尚未定稿;光引擎与 GPU die 的共封装热管理(GPU junction temp ~100°C);每颗 GPU 需要的光端口数量极大(8–16 Tbps 双向)。
规模:Ayar Labs 目标 2027 年量产 TeraPHY UCIe 光 chiplet;Marvell/Celestial AI 计划 FY2028 有意义收入。这一波的 TAM 比 switch CPO 大得多——每颗 GPU/XPU 都可能需要光 I/O chiplet,而交换机只是网络节点。潜在 TAM:2029 年 $50–100 亿。
创业者机会:这是 CPO 创业的核心战场。Ayar Labs(UCIe 光 chiplet)、Lightmatter(光子 interposer)已定位于此。hyperscaler 自研 XPU 团队是最佳客户——他们需要光互联但不想依赖 NVIDIA/Broadcom 的垂直整合方案。
第三波(2028–2031):光学内存互联(Compute-to-Memory 光学连接)
场景:前面讨论的"LPDDR on-package + 光学远端内存池"架构。GPU/XPU 通过光学链路访问跨机柜的 DDR/LPDDR 内存。
驱动力:MoE 模型的 expert routing 需要 TB 级内存;长 context LLM 推理的 KV cache 溢出;HBM 容量上限(~384 GB/GPU)无法满足 >1T 参数模型。苹果"Optical-Based Distributed Unified Memory System"专利和 Baltra 方向。
客户:苹果(推理芯片集群)、hyperscaler 的推理基础设施团队、CXL memory pooling 的光学化升级。
核心诉求:<10 pJ/bit 的内存级光互联;<200 ns roundtrip 延迟(接近远端 NUMA 内存);容量可扩展到数十 TB。
痛点:cache coherency 跨光学链路的实现(硬件 coherence 在多 TB 规模不可行,需要软件管理);内存控制器的协议转换复杂度;光学链路的 BER 需要接近 DRAM 级别(10⁻¹⁸)或依赖轻量 FEC。
规模:Celestial AI(现 Marvell)的 Photonic Fabric Appliance 已演示 32 TB 共享内存。预计 2029–2030 年进入早期部署。TAM 潜力极大——如果每个推理 GPU 都需要光学内存扩展,市场规模可达 $100 亿+。但时间线不确定性最高。
创业者机会:这是最"greenfield"的领域。Celestial AI 已被 Marvell 收购,留下了市场空白。CXL-over-optics(Lightelligence 已有产品)、光学内存控制器(需要新的 ASIC 设计)都是可能的切入点。
第四波(2030+):片上光互联(Intra-chip optical)
场景:光子替代芯片内部的全局互联(global interconnect),如 NoC(Network-on-Chip)的光学化。
驱动力:先进工艺(2nm 以下)的金属互联 RC delay 恶化;chiplet 数量增加后 die-to-die 互联的带宽墙。
客户:目前纯学术和早期研究。IBM、Intel 有相关探索。
创业者机会:过早。当前没有可投资的商业化路径。
二、时间线对应的技术瓶颈突破顺序
瓶颈 1(第一波必须解决):光引擎的规模化制造和可靠性
| 子瓶颈 | 当前状态 | 突破条件 | 成本影响 |
|---|---|---|---|
| 硅光 PIC 良率 | 300mm 晶圆良率 >80%(GF Fotonix, Tower, TSMC N65) | 已基本突破 | 晶圆级制造使 PIC 成本降至 ~$5–15/光引擎 |
| EIC-PIC 封装良率 | TSMC COUPE 3D hybrid bonding 验证中 | 2026 年 Gen2 进入 CoWoS 集成 | 封装成本从 ~20/OE(量产规模效应) |
| ELS 激光器可靠性和标准化 | Broadcom Davisson 前面板 field replaceable laser 已实现 | CW-WDM MSA 标准完成 multi-source interop | 激光器从定制件→标准件,成本降 50%+ |
| 光纤耦合自动化 | TSMC iFAU 方案验证中;edge coupler <1.5 dB | 自动化 pick-and-place 达到 ±1 μm 精度 | 耦合步骤从手工→自动化,成本降 3–5x |
量价关系:第一波的关键成本驱动力是产量上规模——从万级端口到百万级端口。PIC 的晶圆级制造天然具有半导体的规模经济性:产量每翻 10 倍,单位成本降 30–40%。这意味着 2026–2028 年是成本快速下降期。
成本目标:800G CPO 端口成本从当前 ~150–250(百万级量产),低于同等 pluggable 的 ~$300–500。
瓶颈 2(第二波必须解决):UCIe 光学标准化 + CPO chiplet 的通用性
| 子瓶颈 | 当前状态 | 突破条件 | 成本影响 |
|---|---|---|---|
| UCIe 光学扩展规范 | Ayar Labs 2025.3 发布首个 UCIe 光 chiplet;标准化在推进中 | UCIe 联盟正式发布光学 PHY 规范 + 多厂商 interop demo | 光 chiplet 从定制件→标准件,TAM 扩大 10x |
| CPO chiplet 与异构 ASIC 的集成 | Ayar Labs 集成到 GUC ASIC workflow (2025.11) | 至少一家一线 GPU/XPU 公司在产品路线图中采用第三方光 chiplet | 验证"光 chiplet 作为通用组件"的商业模式 |
| 光互联的协议透明性 | Ayar TeraPHY 协议无关(可跑 CXL/NVLink/UALink) | 实际在多种协议上验证互操作 | 降低客户定制化成本 |
| 低功耗高密度 E-O 转换 | 当前 ~5 pJ/bit (Ayar/Intel OCI) | <3 pJ/bit(Intel OCI 路线图)→ <1 pJ/bit(Broadcom 目标) | 每代降低 ~50% 功耗,打开更多功耗敏感场景 |
量价关系:第二波的成本驱动力不是纯粹的制造规模(PIC 良率已在第一波解决),而是设计复用和标准化——同一个光 chiplet 能卖给不同客户的不同 ASIC。Ayar Labs 的 UCIe 标准接口策略正是为此。如果 UCIe 光学标准化成功,光 chiplet 的 NRE 可以被 10–100 个客户分摊,单位成本再降 50%+。
瓶颈 3(第三波必须解决):光学链路的内存级可靠性 + 延迟确定性
| 子瓶颈 | 当前状态 | 突破条件 | 成本影响 |
|---|---|---|---|
| BER 达到内存级别 | 光学链路 NRZ ~10⁻¹²;DRAM 要求 10⁻¹⁸ | 轻量 FEC(+2–5 ns)或 link-level retransmission | 增加少量硅面积(~1–2 mm² FEC engine) |
| 延迟抖动控制 | CPO 光链路抖动 <1 ns;但端到端含控制器后 ~10–50 ns 抖动 | 确定性调度 + 内存控制器流水线优化 | 需要定制内存控制器 ASIC(NRE ~$20–50M) |
| 跨光学链路的 coherency | 硬件 coherence 在 >TB 规模不可行 | 软件管理 coherence(类似 NUMA-aware allocation) | 需要软件栈投入(非硬件成本问题) |
三、技术差异点梳理与排序
宏观技术路线的两极
我把 CPO 技术差异化组织成一个"成本-性能"光谱:
高性能 / 高成本 高性价比 / 平价
←──────────────────────────────────────────────────────→
│ │
TSMC COUPE 3D NVIDIA MRM Broadcom MZM+ELS 直接用成熟
hybrid bonding on TSMC N65 on TSMC COUPE 硅光平台(GF/Tower)
+ SoIC-X + 4x fewer + field-replaceable + 标准 MZM
lasers laser + ELS
──────────────────────────────────────────────────────────
"最极致性能" "创新调制" "工程成熟路线" "够用就好"
微观技术差异点逐项分析
A. 调制器方案:MRM vs MZM vs 薄膜铌酸锂 (TFLN)
| 维度 | MRM(微环调制器) | MZM(马赫-曾德调制器) | TFLN(薄膜铌酸锂) |
|---|---|---|---|
| 原理 | 谐振腔的折射率调制改变透过率 | 干涉臂的相位调制改变输出 | 电光效应(Pockels)直接调制 |
| 尺寸 | ~5–10 μm 直径 | ~2–5 mm 长度 | ~5–10 mm 长度 |
| 调制带宽 | >50 GHz | >40 GHz | >100 GHz(最高) |
| 驱动电压 (Vπ) | ~1–2 V | ~3–6 V | ~1 V(最低) |
| 功耗 | 最低(aJ/bit 级理论值) | 中等(~100 fJ/bit) | 低(~50 fJ/bit) |
| 温度敏感性 | 极高(~0.1 nm/°C 谐振漂移) | 低 | 低 |
| 天然 WDM 支持 | 是(谐振波长即通道选择) | 否(需外部 MUX) | 否 |
| CMOS 兼容性 | 可在标准硅光平台制造 | 可在标准硅光平台制造 | 不兼容——需异质集成或独立晶圆 |
| 量产成熟度 | 中(NVIDIA 首次大规模采用) | 高(Broadcom/Intel 多年量产) | 低(学术 + 少数初创) |
| 插入损耗 | ~2–4 dB(on-resonance) | ~3–6 dB | ~2–3 dB |
| 主要拥护者 | NVIDIA、IBM | Broadcom、Intel、大多数硅光平台 | HyperLight、Luminet(初创)、部分学术组 |
判断:
MZM 是当前最安全的选择。 Broadcom 三代 CPO(Humboldt/Bailly/Davisson)全部基于 MZM,已经过百万设备小时验证。Intel 的硅光平台同样基于 MZM。它不是最优雅的方案——尺寸大、功耗中等——但它可预测、可制造、客户可信任。
MRM 是"高风险高回报"的选择。 尺寸小 100 倍、功耗低、天然支持 WDM——理论上完美。NVIDIA 在 GTC 2025 首次大规模押注 MRM("completely built with MRM on TSMC process"),如果 NVIDIA 的 Quantum-X/Spectrum-X 在 2025–2026 年成功量产并验证可靠性,MRM 将获得巨大的信任度提升。但温度敏感性是根本挑战——每个 MRM 需要独立的热反馈控制环路,在上千个 ring 的系统中这是巨大的控制复杂度。如果你是创业者,MRM 值得赌但必须有 plan B。
TFLN 是"未来技术"但时间线不确定。 它的物理特性(最高带宽、最低驱动电压、温度不敏感)使其理论上是终极方案。但它与 CMOS 不兼容——需要单独的铌酸锂晶圆,然后通过 heterogeneous integration 集成到硅光平台。这增加了制造复杂度和成本。TFLN 最适合的场景是 >100 GHz 调制速率的下一代需求(400G/lane NRZ 或 224G PAM4),在当前 100G/200G/lane 时代尚无 compelling 的 cost-benefit advantage。
B. 封装集成方案
| 方案 | 性能等级 | 成本 | 最佳匹配客户 | 差异化价值 |
|---|---|---|---|---|
| TSMC COUPE 3D(SoIC-X hybrid bonding + CoWoS) | 100 分 | $$$$ | NVIDIA、Broadcom(顶级交换芯片) | 最短 EIC-PIC 距离(<10 μm bump pitch);最低电气寄生参数;支持最高速率(200G/lane) |
| 2.5D CoWoS + 光引擎 chiplet | 85 分 | $$$ | 有 CoWoS 经验的 ASIC 设计公司 | 在已有 CoWoS 流程中加入光引擎,增量改造成本可控 |
| 有机基板 + EMIB bridge | 70 分 | $$ | Intel 生态、中等规模 ASIC | 不需要全 interposer,用局部 silicon bridge 连接 CPO chiplet |
| 有机基板 + 标准 flip-chip(UCIe 标准封装) | 60 分 | $ | 创业公司的最佳起点——hyperscaler 自研 ASIC、FPGA 平台 | 不需要任何先进封装;CPO chiplet 通过 UCIe 标准封装接口连接,任何 OSAT 都能做 |
判断:对于创业公司,UCIe 标准封装(有机基板 + flip-chip)是唯一现实的起步路径。原因:
- 你不可能在早期获得 TSMC COUPE 或 CoWoS 的产能分配——那些被 NVIDIA/Broadcom 锁定
- 有机基板封装的 NRE 和单价低一个量级,允许更多次迭代
- UCIe 标准封装的带宽密度(~0.6–1.0 Tbps/mm 岸线)虽然不如先进封装(5–20 Tbps/mm),但对于第一代产品(~1–4 Tbps per chiplet)完全够用
- 一旦产品验证成功并获得大客户,可以在后续代升级到 UCIe 先进封装
C. 光源策略
| 方案 | 对创业者的意义 |
|---|---|
| ELS(外部激光源) | 首选。 将最不可靠的组件(激光器)解耦出去,降低光引擎 die 级良率风险。CW-WDM MSA 标准化后可采购通用 laser module。创业公司不需要自己做激光器。 |
| 异质集成 laser | 避免。 制造复杂度极高,良率不稳定,且绑定特定代工厂。除非你的核心差异化就是异质集成(如 Openlight),否则不值得承担这个风险。 |
| QD laser on Si | 长期关注但不要作为产品依赖。 Quintessent 在做,但距离量产可能还有 5+ 年。 |
差异化排序总结
对 CPO 创业者最有价值的技术差异化点,按优先级排序:
| 排序 | 差异化点 | 价值驱动力 | 最匹配的商业情境 | 最匹配的客户 |
|---|---|---|---|---|
| #1 | UCIe 光学接口的标准化实现能力 | 让光 chiplet 成为通用组件而非定制件;打开"每颗 ASIC 都可以加光 I/O"的 TAM | 第二波 scale-up 光互联 | hyperscaler 自研 XPU 团队(Google TPU、Amazon Trainium、Meta MTIA) |
| #2 | 低功耗 E-O/O-E 转换(<5 pJ/bit,路线图 <2 pJ/bit) | 功耗是数据中心的硬通货——每降低 1 pJ/bit 在百万端口规模上节省数十 MW | 所有波次 | 所有规模化部署客户 |
| #3 | 封装集成的"够用就好"路径(有机基板 UCIe,避免 CoWoS 依赖) | 降低产品成本和供应链风险;不与 NVIDIA/Broadcom 争抢 TSMC 先进封装产能 | 创业公司第一代产品 | 对成本敏感但需要光互联的客户(推理集群、边缘 AI) |
| #4 | WDM 通道数的扩展能力(从 4λ 到 8/16/64λ) | 每根光纤的带宽直接决定系统的光纤管理复杂度;16λ×25G NRZ = 50 GB/s/fiber 是实用甜点 | 第二/三波,机柜间光互联 | 大规模集群客户(光纤数量敏感) |
| #5 | MRM 的温度控制和量产一致性 | 如果解决,MRM 的尺寸/功耗/WDM 优势使其成为终极调制方案 | 第二波中后期(NVIDIA 验证后跟进) | 追求极致密度和功耗的客户 |
| #6 | TFLN 的异质集成工艺 | 400G/lane+ 时代的潜在必需技术 | 第三/四波(2030+) | 长期研发导向客户 |
四、CPO 创业者最需要的认知和底层 believe
认知 1:你卖的不是光——你卖的是"每 bit 的传输成本"
许多硅光/光子学背景的创业者犯的第一个错误是以技术特性定义产品——"我们的 MRM 消光比高 2 dB"、"我们的耦合损耗低 0.5 dB"。客户不在乎。客户在乎的是:你的方案每传输 1 Gbps 数据要花多少钱($)、用多少电(pJ)、占多少空间(mm²)、能不能在 5 年内不坏。
这意味着你的 pitch 必须是"我们的光引擎让你的 102.4T 交换机省 65% 光互联功耗,每年省 $X 万电费",而不是"我们用了创新的 micro-ring resonator"。
底层 believe:技术创新是手段,不是目的。能以更低的 $/Gbps 和 pJ/bit 交付可靠的光链路,就是赢家——不管用的是 MZM、MRM 还是 TFLN。
认知 2:CPO 的真正竞争对手不是其他 CPO 公司——是"不用光"
在任何具体场景中,你的对手首先是铜线方案的持续改进(Eliyan NuLink、Kandou Glasswing、更好的 PCB 材料、更低功耗的 retimer)和 LPO(去掉 DSP 的 pluggable)。这些方案的风险更低、部署更简单、生态更成熟。
你必须能回答:"为什么这个客户在这个时间点必须用光,而不能再等一代铜?" 答案通常指向三个"物理硬墙"中的至少一个:
- 带宽×距离乘积:铜的极限是 ~100 Gbps·m(224G PAM4 reach <0.5m),超过这个值必须用光
- 功耗密度:当光互联功耗占系统 >20%,且 pluggable 的 DSP 功耗无法再降,CPO 的 65% 功耗优势变得不可忽略
- 端口密度:前面板空间用完了,必须把光引擎搬到封装内部
底层 believe:如果你的目标场景不触碰这三个硬墙中的至少一个,你的产品没有足够的"必须性"(必须 buy),客户会选择等待。
认知 3:你的产品必须能嵌入现有供应链链路中,不能要求客户改变一切
CPO 涉及 ASIC 设计(tape-out 前 18–24 个月决定)、封装(OSAT 的工艺能力)、PCB(layout 和 thermal design)、系统集成(光纤布线、冷却方案)、运维流程(诊断、替换、库存管理)。如果你的产品要求客户在所有这些维度上同时改变,采纳周期将是 5 年以上。
关键策略:选择一个维度做根本性创新,其他维度尽量兼容现有生态。
- Ayar Labs 选择了 UCIe 标准接口——ASIC 设计团队已经熟悉 UCIe,只需要在 chiplet list 里加一颗光 chiplet
- Broadcom 选择了在自家交换芯片上做 CPO——封装和系统由自己控制,客户只需要"买一台交换机"
- Celestial AI 选择了兼容 EMIB/CoWoS 的光子 chiplet——可以"滴入"现有的先进封装流程
底层 believe:减少客户的变更面是比提升技术指标更重要的产品设计原则。
认知 4:你必须在"标准化推动者"和"差异化捍卫者"之间走钢丝
标准化(UCIe 光学、CW-WDM MSA、OIF CEI-224G-Linear)是创业公司脱离大公司引力场的必要条件——只有标准化才能让你的产品卖给 Broadcom 和 NVIDIA 之外的客户。但标准化也意味着你的接口被公开,任何人都能做兼容产品。
解法是"标准化接口,私有化性能":
- 接口层:完全拥抱标准(UCIe electrical spec、CW-WDM 波长 grid)
- 性能层:在标准接口之上,通过 PIC 设计 know-how、EIC 优化、封装工艺创新来实现更低功耗、更高良率、更低成本——这些是客户 qualify 后不会轻易切换的"粘性"
底层 believe:标准化扩大市场,差异化捕获利润。两者不矛盾。
认知 5:Pivot 能力比初始技术选择更重要
硅光子领域技术路线图的变化速度超过大多数半导体领域。2021 年没人预料 NVIDIA 会在 2025 年 all-in MRM;2023 年没人预料 Marvell 会以 $3.25B 收购 Celestial AI;2024 年没人预料 TSMC COUPE 的进展会如此之快。
具备 pivot 能力需要的不是"押对技术",而是:
- 核心团队覆盖光+电+封装+系统四个领域——这样在任何一个子领域需要 pivot 时,其他领域的 know-how 可以保持
- 产品架构的模块化——光引擎的 PIC 和 EIC 分开设计,可以独立迭代;不把赌注压在单一调制器方案上(比如同时准备 MZM 和 MRM 版本的 PIC)
- 客户关系的深度超过产品的宽度——与 2–3 个灯塔客户的深度联合开发,使你能第一时间感知市场需求的变化方向
- 财务纪律——硅光的 tape-out 周期长(6–12 个月/次)、成本高($2–10M/次),你必须有足够的现金跑道容纳 2–3 次 pivot
底层 believe:CPO 的终局确定(铜到光的转型不可逆),但路径不确定(MRM vs MZM、ELS vs 异质集成、UCIe vs 专有接口,都可能反转)。能在确定的终局下灵活切换路径的团队,比押对初始路径的团队更有价值。
认知 6:最终胜出的 CPO 创业公司不会是"CPO 公司"
Broadcom 不是"CPO 公司"——它是交换芯片公司,CPO 是增值功能。NVIDIA 不是"硅光公司"——它是 AI 基础设施公司,硅光是使能技术。Marvell 不是"光子互联公司"——它是数据基础设施公司,Celestial AI 的 Photonic Fabric 是其连接平台的一部分。
成功的 CPO 创业公司最终会变成以下之一:
- 被收购整合到大公司的连接平台中(Celestial AI → Marvell,$3.25B)
- 成为"光学 I/O 的 ARM"——不卖芯片,卖 IP 和标准化平台(Openlight 的方向)
- 成为"光学 I/O 的 HBM 供应商"——独立组件公司,技术壁垒极高,供所有 ASIC 厂使用(Ayar Labs 的方向,如果 UCIe 光学标准化成功)
底层 believe:CPO 不是独立产业——它是半导体封装和系统互联产业的一个技术层。你的公司需要在这个更大的产业图景中找到自己的永久位置。
很好的回答。几个追问问题: 1)你提到了Broadcom 目标 sub-1 pJ/bit CPO,他的实现技术路径是什么?为什么CPO可以持续降低,是靠更高的带宽的摊薄吗?具体机制是什么?详细解释一下Broadcom的技术路线图和核心假设。 2)CW-WDM MSA,还有好像一个“OCI-MSN,4波长 WDM,50G/lane”的标准,总之是关于CPO中用各种WDM的模式来解决光引擎带宽问题,还有什么相关标准在弄?完整的列一下这些不同标准的方案,比如需要多少个外部光源,什么波长,多少路什么速率,最后怎么组成3.2还是6.4gbps,多少算一个CPO“模块”,serdes还是UCIE接口等等,占地面积等等,这些细节做全面的梳理。以及里面的核心技术难点和工程挑战。
一、Broadcom sub-1 pJ/bit CPO 路线图:降功耗的具体机制
功耗下降的历史数据
| 世代 | 产品 | 年份 | 每 lane 速率 | 800G 端口功耗 | 等效 pJ/bit | 对比 pluggable |
|---|---|---|---|---|---|---|
| Gen1 | Humboldt (TH4) | 2021 | 100G | ~6.4W | ~8 pJ/bit | 已降 ~55% |
| Gen2 | Bailly (TH5) | 2023 | 100G | ~5.5W | ~6.9 pJ/bit | 降 65% |
| Gen3 | Davisson (TH6) | 2025 | 200G | ~3.5W | ~4.4 pJ/bit | 降 70%+ |
| Gen4 | 未命名 | ~2027 | 400G | 目标 ~2W? | ~2.5 pJ/bit | 目标 >75% |
| 远期 | — | 2029+ | 400G+ | — | <1 pJ/bit | — |
Pluggable 基线:800G OSFP(retimed DSP)约 ~15–18W → ~19–22 pJ/bit。
降功耗的六个具体机制
Broadcom 的 sub-1 pJ/bit 目标不是靠单一技术突破,而是六个独立的降功耗杠杆叠加:
机制 1:消除 DSP/Retimer(最大的单一贡献者)
占传统 pluggable 总功耗的 ~40–50%
传统 pluggable 模块内有独立 DSP 芯片,功耗 ~4–6W(@800G)。DSP 的功能是:时钟恢复(CDR)、均衡(EQ)、前向纠错(FEC)、协议转换。
CPO 通过把光引擎放在 ASIC 旁边(<1 cm 电距离),电信号不需要经过长 PCB trace,信号完整性足够好,可以完全去掉模块内 DSP。ASIC 侧的 SerDes 直接驱动光调制器(linear drive),光接收端直接把信号送回 ASIC SerDes——中间零 DSP。
功耗节省:~4–6W per 800G port → ~5–7.5 pJ/bit 节省
这一步在 Gen1 Humboldt 就已实现——所以第一代 CPO 就比 pluggable 省了 55%。
机制 2:缩短电信号传输距离→降低 SerDes 功耗
从 Gen1 到 Gen3 持续贡献
OIF CEI 标准显示 SerDes 功耗与 reach 强相关:LR(1m)~4.9 pJ/bit → MR(50cm)~3.5 pJ/bit → VSR(22cm)~1.75 pJ/bit → XSR(5cm)~1.5 pJ/bit → UCIe(<1cm)~0.25 pJ/bit。
从 Gen1(光引擎在基板上,距 ASIC ~5–10 mm)到 Gen3 Davisson(TSMC COUPE 3D hybrid bonding,EIC-PIC 间距 <100 μm),电路径长度缩短了 50–100 倍。
每代缩短电距离贡献 ~0.5–1.5 pJ/bit 节省。
机制 3:先进 CMOS 工艺缩放 EIC 功耗
Broadcom Gen1 的 EIC(driver/TIA)可能在 28nm 或 16nm 工艺;Gen3 Davisson 使用 TSMC COUPE,EIC 在 N7 或 N6 工艺。Gen4 可能用 N5 或 N3。
每代 CMOS 缩放贡献 ~20–30% 的 EIC 动态功耗降低——这是标准半导体 scaling 的红利,每 bit 的 driver/TIA 能量随工艺代际等比下降。
从 16nm 到 3nm:理论上 EIC 功耗可降 3–4 倍。
机制 4:TSMC COUPE 3D hybrid bonding 减少 EIC-PIC 互联损耗
这是 Gen3 Davisson 的关键新变量。
传统的 EIC-PIC 连接通过 wire bond 或 flip-chip bump(~50–100 μm pitch),寄生电容 ~50–100 fF,每次信号跨越这个界面要消耗可观的能量。
TSMC COUPE 的 SoIC-X hybrid bonding 把 bump pitch 压缩到 <10 μm,寄生电容降低到 ~5–10 fF。EIC 和 PIC 面对面直接键合,电信号路径从 ~1 mm 缩短到 ~10 μm。
功耗节省:~0.3–0.5 pJ/bit——绝对值不大,但在 pJ/bit 已经很低的情况下比例可观(~10–15%)。
机制 5:提高每 lane 速率→固定开销的摊薄
这是你提到的"摊薄效应"——但它的机制比简单除法更微妙。
光引擎中有一些与速率无关的固定功耗:激光器偏置电流(~5–20 mA × ~1.5V = ~10–30 mW per 波长,不随 data rate 变化)、热控制电路(MRM 的 heater 或温度监控)、PD 偏置。
当 lane 速率从 100G 翻倍到 200G(Gen2→Gen3),这些固定功耗被更多 bit 分摊:
- 假设固定功耗 ~1 pJ/bit @100G → 0.5 pJ/bit @200G → 0.25 pJ/bit @400G
- 这提供了 ~0.5–1 pJ/bit 的"免费"降幅每代
但同时,更高速率要求更宽带的 driver/TIA(功耗上升),所以实际净效果取决于 EIC 设计优化的速度是否快过速率提升。Broadcom 到目前为止每代都做到了净节省。
机制 6:MRM(微环调制器)替代 MZM
这是 NVIDIA 的路线(Gen1 即采用 MRM),Broadcom 的 Gen1–3 仍使用 MZM,但 Gen4(400G/lane)很可能转向 MRM 或 EAM。
MRM 的调制功耗理论上可以低到 <10 fJ/bit(aJ/bit 级理论极限),而 MZM 通常 ~100–500 fJ/bit。这是因为 MRM 的调制机制是改变微环(~5 μm 直径)的谐振条件——只需要驱动极小的电容。
如果 Gen4 成功采用 MRM:调制功耗可能降低 10–50 倍,从 ~0.5 pJ/bit(MZM driver 功耗)到 ~0.01–0.05 pJ/bit。
综合 pJ/bit 演进分解
| 功耗组成 | Gen1 (~8) | Gen2 (~7) | Gen3 (~4.5) | Gen4 目标 (~2.5) | 远期目标 (<1) |
|---|---|---|---|---|---|
| SerDes(ASIC→OE 电路径) | ~2.5 | ~2.0 | ~1.0 | ~0.5 | ~0.25 (UCIe) |
| EIC driver/TIA | ~2.0 | ~1.8 | ~1.2 | ~0.7 (N5/N3) | ~0.3 |
| 光调制器 | ~0.5 (MZM) | ~0.5 | ~0.4 | ~0.1 (MRM?) | ~0.05 |
| 激光器/光源分摊 | ~1.5 | ~1.2 | ~0.8 | ~0.5 | ~0.2 |
| PD + 前端 | ~0.5 | ~0.4 | ~0.3 | ~0.2 | ~0.1 |
| 热控/监控固定开销 | ~1.0 | ~1.0 | ~0.8 | ~0.5 | ~0.1 |
| 合计 | ~8 | ~7 | ~4.5 | ~2.5 | ~1.0 |
所以回答你的核心问题:sub-1 pJ/bit 不是靠单一突破,而是六个杠杆的叠加——去 DSP、缩短电距离、CMOS 缩放、3D 封装、速率摊薄、新型调制器。每个杠杆贡献 ~20–50% 的改善,六个叠加后从 ~20 pJ/bit(pluggable)压缩到 <1 pJ/bit 是可能的。
二、CPO 相关 WDM 标准全景梳理
标准一览表
| 标准 | 成立时间 | 创始成员 | 波长范围 | 波长数 | 每 λ 速率 | 调制 | 每根光纤带宽 | 光源形态 | 应用 |
|---|---|---|---|---|---|---|---|---|---|
| CW-WDM MSA | 2020 | Arista, Ayar Labs, Intel, Lumentum, MACOM, Quintessent, Sivers, Sumitomo, imec, II-VI | O-band(~1260–1360 nm) | 8 / 16 / 32(路线图 128) | 不规定(由应用标准定义) | 不规定 | 不规定——只定义光源 | ELS:两种形态——(1)模块化(每端口单波长)(2)集成式(每端口全波长);功率等级从极低到极高 | 通用光源标准——服务于 CPO、光计算、AI 等所有需要多波长 CW 光源的应用 |
| OCI MSA | 2026.3 | AMD, Broadcom, Meta, Microsoft, NVIDIA, OpenAI | O-band | Gen1: 4λ | Gen1: 50G NRZ | NRZ | Gen1: 200 Gbps/方向;Gen2: 400 Gbps BiDi(800 Gbps/fiber) | ELS(CW-WDM 兼容) | scale-up 光互联——GPU/XPU 间跨机柜连接;协议无关(可跑 NVLink/UALink/UEC) |
| IEEE 802.3 系列 | 多年 | IEEE | O-band / C-band | 4λ(LAN-WDM for FR4/LR4)或 1λ(DR) | 100G/200G PAM4 | PAM4 | 400G / 800G / 1.6T | 定义在模块内(DFB 或 EML) | scale-out 以太网——传统 pluggable 和 CPO 的 scale-out 场景 |
| COBO / APC | 2015 | Microsoft 领导,60+ 成员 | — | — | — | — | — | — | 封装标准——定义 on-board / co-packaged 光学的机械、电气、管理接口 |
| Open CPX | ~2025 | 行业联盟 | — | — | — | — | — | — | 连接器标准——定义 NPO 和 socketed CPO 的可拆卸连接器和模组形态 |
OCI MSA 详细技术方案拆解
这是 2026 年 3 月刚刚成立的最新、最重要的 CPO 标准——AMD、Broadcom、Meta、Microsoft、NVIDIA、OpenAI 六家联合创始,这个创始成员名单本身就是历史性的。
OCI Gen1:4λ × 50G NRZ
| 参数 | 规格 | 说明 |
|---|---|---|
| 波长数 | 4 | O-band,间距遵循 CW-WDM MSA grid |
| 每 λ 速率 | 50 Gbps NRZ | 最简单的调制——无需 FEC,无需 DSP |
| 每方向带宽 | 200 Gbps | 4 × 50G |
| 双向带宽(单根光纤) | 200G Tx + 200G Rx = 400 Gbps(如果用独立 Tx/Rx fiber) | 或 Gen2 BiDi 共用光纤 |
| FEC | 不需要 | NRZ @50G 的 BER 在短距可达 <10⁻¹² |
| DSP/Retimer | 不需要 | linear drive 直接调制 |
| SerDes 接口 | 兼容现有电 SerDes-based ASIC;路线图支持直接 ASIC 集成 | — |
| 光源 | 外部 CW laser(ELS),CW-WDM MSA 兼容 | 4 个波长的 CW 光通过光纤送入 PIC |
| 调制器 | MRM(最可能)或 MZM | MRM 的天然波长选择特性与 WDM 完美匹配 |
| 光纤类型 | 单模光纤(SMF) | |
| 传输距离 | 短距(<10–50m,scale-up domain 内) | |
| 封装形态 | 支持 pluggable / OBO / CPO | — |
OCI Gen2:400G BiDi / 单根光纤
| 参数 | 规格 |
|---|---|
| 每方向带宽 | 400 Gbps |
| 双向 / 单根光纤 | 800 Gbps per fiber(BiDi 技术) |
| 波长/速率组合 | 可能 8λ × 50G NRZ 或 4λ × 100G NRZ |
OCI 远期路线图:3.2 Tbps/fiber
| 参数 | 规格 |
|---|---|
| 目标带宽 | 3.2 Tbps per fiber |
| 可能实现方式 | 32λ × 100G NRZ 或 16λ × 200G NRZ/PAM4 |
| 光源 | 需要 16–32 波长 ELS(CW-WDM MSA 已定义到 32λ,路线图 128λ) |
一个 CPO "光引擎模块"的完整解剖
以 Broadcom Davisson(Gen3 CPO)和 NVIDIA Spectrum-X 为参考,一个典型的 CPO 光引擎模块(Optical Engine, OE)的构成:
Broadcom Davisson 光引擎(MZM 方案,200G/lane)
| 组件 | 数量 | 说明 |
|---|---|---|
| 光引擎 per switch | 16 颗 | Davisson TH6 有 16 × 6.4T OE |
| 每颗 OE 的 lanes | 32 lanes(16 Tx + 16 Rx) | 每 lane 200G PAM4 |
| 每颗 OE 带宽 | 32 × 200G = 6.4 Tbps | 双向 |
| 全 switch 带宽 | 16 × 6.4T = 102.4 Tbps | |
| WDM 方案 | 4λ CWDM(DR 兼容) | 每根光纤 4 个波长 |
| 光纤数 | 每 OE 8 根光纤(4 Tx + 4 Rx) | 每根光纤 4λ × 200G = 800G |
| 外部激光器 | ELS 激光器模块(field replaceable) | CW 光通过光纤送入 OE |
| 调制器 | 硅基 MZM | |
| 封装 | TSMC COUPE(SoIC-X hybrid bonding PIC+EIC)+ 有机基板 | |
| OE 尺寸 | 估计 ~5×8 mm per OE | |
| 每 OE 功耗 | ~15–20W(含 driver/TIA/heater) | ~4.5 pJ/bit @200G |
NVIDIA Spectrum-X 光引擎(MRM 方案,200G/lane)
| 组件 | 数量 | 说明 |
|---|---|---|
| 光引擎 per switch | 36 颗(32 active + 4 redundant) | Spectrum-X MCM |
| 每颗 OE lanes | 16 lanes(8 Tx + 8 Rx) | 每 lane 200G |
| 每颗 OE 带宽 | 16 × 200G = 3.2 Tbps | |
| 全 switch 带宽 | 32 × 3.2T = 102.4 Tbps | |
| WDM 方案 | 8λ O-band WDM | 每根光纤 8 个波长 |
| 光纤数 | 每 OE 2 根光纤(1 Tx + 1 Rx) | 每根 8λ × 200G = 1.6T |
| 外部激光器 | ELS(Lumentum/Coherent 供应) | Jensen Huang 声称"4× fewer lasers than pluggable" |
| 调制器 | MRM(微环调制器) | TSMC N65 PIC 工艺;每个 MRM 天然选择一个波长 |
| 封装 | TSMC COUPE(SoIC-X) | |
| 每 OE 尺寸 | 更小(MRM 比 MZM 紧凑 100×) | |
| 冗余 | 32+4 设计(4 个备用 OE) | 单 OE 故障不影响系统 |
Intel OCI chiplet(Hot Chips 2024 演示)
| 参数 | 规格 |
|---|---|
| 总带宽 | 4 Tbps 双向 |
| 通道配置 | 64 lanes @ 32 Gbps NRZ |
| WDM | 8 波长 per fiber |
| 光纤 | 8 对 SMF(8 fiber pairs) |
| 光源 | 集成激光器(异质集成 InP-on-Si) |
| 功耗 | ~5 pJ/bit |
| 路线图 | <3 pJ/bit |
Ayar Labs TeraPHY Gen3
| 参数 | 规格 |
|---|---|
| 总带宽 | 8 Tbps 双向 |
| WDM | 16 波长 |
| 每 λ 速率 | 32 Gbps NRZ |
| 光纤 | 16 fiber pairs |
| 光源 | SuperNova ELS(CW-WDM MSA 首个合规产品,16 波长) |
| 接口 | UCIe |
| 功耗 | <5 pJ/bit |
对比汇总:不同标准方案的"一个模块"
| 方案 | 每模块带宽 | λ 数 | 每 λ 速率 | 调制 | 光纤数 | 外部光源 | SerDes/接口 | 面积估算 | 功耗 |
|---|---|---|---|---|---|---|---|---|---|
| OCI Gen1 | 400G BiDi | 4 | 50G | NRZ | 1 fiber pair | 4λ ELS | 现有 SerDes 或直接集成 | ~3×5 mm? | <3 pJ/bit 目标 |
| OCI Gen2 | 800G BiDi | 8 | 50G (或 4×100G) | NRZ | 1 fiber | 8λ ELS | 同上 | ~5×5 mm? | — |
| Broadcom OE (Davisson) | 6.4 Tbps | 4 CWDM | 200G | PAM4 | 8 fiber | 4λ ELS per OE | 200G SerDes | ~5×8 mm | ~4.5 pJ/bit |
| NVIDIA OE (Spectrum-X) | 3.2 Tbps | 8 WDM | 200G | PAM4 | 2 fiber | 8λ ELS | 200G SerDes | ~3×6 mm? | ~3 pJ/bit? |
| Intel OCI chiplet | 4 Tbps | 8 | 32G | NRZ | 16 fiber pair | 集成 InP laser | — | ~10×10 mm | ~5 pJ/bit |
| Ayar TeraPHY Gen3 | 8 Tbps | 16 | 32G | NRZ | 16 fiber pair | SuperNova 16λ ELS | UCIe | ~7×7 mm | <5 pJ/bit |
| OCI 远期 | 3.2 Tbps/fiber | 32? | 100G? | NRZ? | 1 fiber | 32λ ELS | 直接 ASIC 集成 | — | <1 pJ/bit 目标 |
核心技术难点和工程挑战
挑战 1:多波长 ELS 的制造和成本
8 波长 ELS 已有产品(MACOM、Sivers 等),16 波长 Ayar Labs SuperNova 已是首个 CW-WDM 合规品。但 32 波长 ELS 还在研发中——需要 32 个独立 DFB 激光器精确对准到 CW-WDM grid 的频率上,且总输出功率足够高(每 λ 至少 10–15 dBm 才能补偿 PIC 内的分路和调制损耗)。
32λ ELS 的功耗预算:假设每 λ 激光器 ~30 mW 电功耗 → 32 × 30 = ~1W。这 1W 是"固定开销"——如果每 λ 传 100G NRZ,总 3.2 Tbps,则激光器分摊功耗 = 1W / 3.2T = ~0.3 pJ/bit——在 sub-1 pJ/bit 的总预算中占 ~30%。激光器效率的提升是到达 <1 pJ/bit 的关键路径之一。
挑战 2:MRM 的波长对齐和热控
OCI 和未来 DWDM CPO 几乎必然使用 MRM,因为 MRM 天然做 WDM MUX——每个 ring 谐振在不同波长上,从 comb source(多波长 ELS)中选择"自己的"波长进行调制。
问题在于:MRM 的谐振波长随温度漂移 ~0.1 nm/°C。在 ASIC 旁边(温度波动 ±10°C),谐振漂移 ~1 nm——而 CW-WDM 的 8λ grid 间距可能只有 ~2–4 nm(O-band 8λ 在 ~100 nm 范围内)。
解决方案:每个 MRM 配一个独立的微加热器(micro-heater)+ 反馈控制环路,实时锁定谐振波长。每个 heater 功耗 ~0.5–2 mW,32 个 heater → ~16–64 mW 额外功耗。在 sub-1 pJ/bit 的总预算中,这个开销需要被严格控制。
NVIDIA 在 GTC 2025 声称已解决 MRM 热控——但在百万规模量产中的一致性和可靠性仍需验证。这也是 OCI MSA 中 Marvell 缺席的可能原因之一——Marvell 的技术路线可能与 MRM 方案有架构冲突。
挑战 3:NRZ vs PAM4 的"速率-复杂度"权衡
OCI MSA 选择 NRZ 是深思熟虑的:
- NRZ 的优势:信噪比比 PAM4 高 ~9.5 dB;不需要 FEC(省 ~20–50 ns 延迟和 ~0.5 pJ/bit 功耗);driver/TIA 设计简单得多
- NRZ 的劣势:单 λ 速率上限低——50G NRZ 是成熟的,100G NRZ 是前沿但可行,200G NRZ 非常困难(需要 >100 GHz 带宽的调制器和 PD)
OCI 选择"低速率 NRZ × 多波长"而非"高速率 PAM4 × 少波长",用光域的并行性(更多λ)换取电域的简洁性(更简单的 SerDes/driver)。这在功耗和延迟上有明显优势,但要求光引擎能高效支持更多 WDM 通道——回到挑战 1 和 2。
挑战 4:OCI 的"政治学"——谁受益、谁受损
OCI MSA 的成立对行业格局有深远影响:
受益者:
- AMD、Meta、Microsoft、OpenAI——获得了不绑定 NVIDIA NVLink proprietary 硬件的 scale-up 光互联标准
- Broadcom——其多代 CPO 经验直接适用于 OCI 光引擎设计
- 光引擎初创公司(Ayar Labs 等)——OCI 定义了标准化的光 PHY 接口,允许第三方光引擎 interop
受损者:
- 传统 pluggable 模块厂——OCI 明确推动从 pluggable 向 CPO 迁移
- 铜缆 scale-up 方案(DAC、AEC)——OCI 的存在意味着 hyperscaler 已决定 scale-up 要走光
存疑者:
- NVIDIA 自身——NVIDIA 既是 OCI 创始成员又有 proprietary NVLink。OCI 是 NVLink 的光学物理层标准还是 NVLink 的竞争替代?NVIDIA VP Gilad Shainer 的说法是"OCI 建立 NVLink 运行其上的光学标准"——即 OCI 是传输层,NVLink 是协议层,两者正交。但如果 AMD 的 UALink 也跑在 OCI 上,NVIDIA 的 NVLink 锁定力就被削弱了。
- Marvell——缺席 OCI 创始成员名单。可能因为 Marvell/Celestial AI 的 Photonic Fabric 有自己的架构设想,与 OCI 的"统一物理层"理念冲突。
总结:WDM 标准化对 CPO 创业的含义
CW-WDM MSA 解决的是"光源标准化"——让不同厂商的 ELS 可以互换。这对创业公司是好消息:你不需要自己做激光器,可以从标准化供应链采购。
OCI MSA 解决的是"光 PHY 接口标准化"——让不同厂商的光引擎可以和不同厂商的 ASIC 互操作。这对创业公司是更大的好消息:它创造了一个"光引擎作为标准组件"的市场,不再被 Broadcom/NVIDIA 的专有接口锁定。
OCI 选择 NRZ + WDM 的技术路线意味着:未来 CPO 的核心差异化将从"谁能做最快的 SerDes/DSP"转向"谁能做最多波长、最低功耗的 WDM 光引擎"。这对擅长硅光 PIC 设计的创业公司(MRM 热控、WDM MUX/DEMUX、高效耦合)比擅长高速电路设计的公司更有利。