下一个 ” 光模块 “?
字节豆包的出圈,在 A 股又掀起一股围绕算力基建的投资,应用端的进步和巨额资本开支或逼促国内其他 AI 玩家追赶差距。
而在全球 AI 领域,随着算力需求突破单个芯片性能升级的速度,一场全新的 AI 基建已经拉开帷幕。博通的入局,令大型科技公司不再臣服于英伟达的芯片霸权。
新一批卖铲人,开始进场了。
AI 基建 2.0
AI 基建投资并非只停留在堆 GPU 的范畴,还覆盖了像高速互联、存储、光通信、交换机等不可或缺的环节,这些共同组成了算力,存力,运力。
AI 服务器跟传统服务器集群的不同,就是增加了 GPU 模组。从存力的角度,HBM 容量带宽的增速赶不上芯片算力增长的速率,那就会有内存墙的问题,制约算法的发挥。
从服务器的角度,算力网络内部光模块的用量由集群内 GPU 数量决定,每台服务器的网络端口数量同步增加,按照比例推算可知,这会带来多大的需求量。
这个逻辑,其实在 AI 基建 1.0 版本已经兑现过。国内的光模块 ” 三剑客 “,美国的博通、迈威尔科技,都是受益者。
而如今,逻辑有什么变化?
首先是超大规模算力集群已经初具雏形。
Meta 此前提出,要在 2024 年底继续扩大基础设施建设,包括 35 万颗 H100 的配置。未来,AI 算力集群的规模上限将远远不止百万颗 GPU。
生成式 AI 的应用往往需要处理和分析大量数据,执行这些任务通常会超过单个计算节点的能力,因此需要跨多个计算节点分摊工作负载,前提是要让节点之间的通信畅通无阻。
英伟达的做法叫做 Scale up,通过 NVLINK Switch 提升 GPU 之间的通信速率,把多个 GPU 组成一个超级 GPU 节点,纵使单节点的性能已经趋近极限,在高速互联下张量并行的得以提升。
而实现高速互联的方案,不再只是光模块,而纳入了铜互联 。因为在短距离连接的场景里,相比光互连,铜互联在成本和功耗上占据优势。
以英伟达 GB200 NVL72 为例,800G 光模块的市场平均单价在 430 美金左右,那么整个机柜购置光模块就要花掉 55.7 万美元,相比之下,使用铜缆互联节省了差不多 6 倍的成本。
在短距离连接场景里,高速铜互连方案已经逐渐被海外大型云服务厂商所采用。
其次,去年 AI 芯片的所有增量几乎都被英伟达一家所垄断,但随着以博通 ASIC 为代表的芯片合作方式得到验证,科技巨头逐渐加码了自研算力部署。
因为过去英伟达可以将 GPU 和互联方案一起打包塞给科技巨头,但现在巨头和博通一起搞芯片集群,选择上更加多样化,激发了像高速互联、交换机的配套需求。
亚马逊在今年 12 月初发布了 Trainium2 推理芯片,其单机柜可以放置两台 Trainium2 服务器,两个机柜间就通过有源线缆连接。除此之外,谷歌、X.AI 都在使用定制线缆。
除了业绩指引亮眼的博通,数据中心的上游配套供应商今年终于能看到实际的业绩增长。
安费诺是高速率连接器龙头,英伟达高速铜缆组件的主要供应商。在过去的三季度,公司销售额同比增长 26%,其中用于 AI 产品的贡献最大。
Credo 提供的是高速连接线材,近期大火的 AEC 是其主要产品。在月初公布的财报中,公司即表示 AEC 已经在下游 AI 领域放量,佐证了科技大厂对于高速线缆的旺盛需求。业绩公布后次日,公司市值一天就涨近 50%。
什么是 AEC?
对于 AI 算力集群来说,最小化能耗和成本是极关键的。英伟达的策略是尽可能多地部署高速铜缆,今年推出的 GB200 机架方案中,采用了超过 5000 根铜缆连接 GPU,长度超过 2 英里。
按照下半年出货,明年成为主力产品的节奏,市场对铜缆潜在需求量的预期十分乐观。根据机构预测,仅 GB200 出货量拉动的铜缆需求,2025 年的市场空间将达到约 64 亿美元。未来新产品方案的设计,对于高速铜缆的需求还会不断进行迭代。
数据中心交换网络的连接方案包括光模块 + 光纤、有源光缆 AOC 和直连铜缆 DAC。
铜缆为短距离连接提供高带宽和性能,是经济高效的解决方案。而光缆利用光纤并提供更高的带宽,适合更长的距离,多用于不同机架之间的连接。
想要实现成本最低的高速互联,且功耗和延迟统统降低,铜互连是性能和成本折中的方案。
DAC 是一种两端带有固定接头的铜缆组件,广泛用于数据中心的短距离连接,长度通常为 1 至 7 米,传输速率最高可达到 224Gps,可以进一步分为有源 DAC 和无源 DAC。
无源 DAC 在电缆端直接连接,通过铜线传输,在没有信号调节时可以进行传输。覆盖距离不超过 3 米,譬如用于系统内的机架连接。
有源 DAC 则包含 ACC(有线铜缆)和 AEC(有源电缆)。
ACC 是通过内部添加了有源信号驱动器芯片,这些有源芯片补偿了铜传输造成的部分损耗,因此它们可以传输比无源 DAC 远 2-3 倍的距离。
而 AEC 则是在 ACC 基础上,通过在线缆两端引入 Retimer 芯片,可以在传输开始和结束时清理、去除噪声并放大信号, 从而进一步延长传输距离 。虽然功耗和成本也会随之增加,但仍低于光缆 AOC。
比较来看, AEC 和 ACC 的覆盖范围都比 DAC 更长,都适用于为短距离连接提供高带宽 ,是比较经济高效的解决方案。
每年要投入上千亿资本开支的微软谷歌们,未来预算投入会将一部分投入到互联设施中,这是确定无疑的。
因为 NVLINK 技术的存在,再加上机柜密度足够高,所以英伟达使用 DAC 和部分 ACC 就已经够用。但他们现在要围绕自己的芯片集群配套,整体算力密度不如英伟达的前提下,机柜内卡离得更远, 于是就倾向于性能出色的 AEC。
机构大幅度的修正呼应了如今大型 AI 集群对高速电缆需求的积极变化。
根据 Lightcounting 最新报告, 预计未来五年高速电缆的销售额将增长两倍以上,到 2029 年将达到 67 亿美元 。按照去年的报告,对 2028 年销售额的估计只有 28 亿美元。
除了市场扩容本身,其中主要的变化是,到 2029 年,DAC 将逐渐把市场份额让给 AEC 和 ACC。
但是不是一定能替代光模块呢?
如果一些方案本来使用的是有源光缆,可能会被 AEC 替代一部分。但在 1.6T 甚至更高速率的互联域,跨机柜较长距离的连接场景依然首选光模块,整体方案来看还是会搭配使用。
超大算力集群的竞赛不光只有海外巨头在参与,国内几个头部玩家也在持续投入。字节网传的明年 1500 亿元资本开支,以及字节在应用端的出色表现,或倒逼其他国内大厂奋起直追,在国内复制一场 AI 军备竞赛。
对于国内 A 股,投资机会又可能在哪里? ( 注意:下文提到的上市公司仅是分析说明,并非推荐,读者需注意风险 )
下一个光模块?
AI2.0 基建对于高速互联的需求明确,同时随着自研 ASIC 队伍的不断壮大,超大规模 XPU 集群的建设将带动上游的光模块、交换机、PCB、高速线缆等用量的持续繁荣。
来自英伟达的映射最为直接 ,当前 B200 在逐渐上量,供应商安费诺的配套产品线就集结了众多来自国内的上游供应商,譬如包括乐庭智联 ( 沃尔核材 ) 、神宇股份、鼎通科技、奕东科技 等 ( 仅作分析说明,并非推荐 ) 。
乐庭智联是沃尔核材的子公司,也是安费诺的核心线缆供应商,目前无论是产品线,技术,以及产能,都为承接大量订单做足了准备,可以预见未来由产能和价值量提升带来的业绩怎增长。
公司在 8 月曾透露,部分单通道 224G 高速通信线产品完成了重要客户验证,已接到订单需求,陆续交付中,目前整体占比较小。
作为核心映射标的,股价从 2 月最低点迄今,市值累计翻了接近 4.5 倍。类似的海外配套供应商还有 精达股份、鸿腾精密 等 ( 仅作分析说明,并非推荐 ) 。
高速铜缆组件由线材和连接器组成,上游提供材料,下游是终端客户。在高速线材 & 连接器市场,国际巨头通过专利优势垄断大量份额。AEC 的主要供应商包括 Astera labs,Broadcom、Credo、Marvell、Maxliner、Point2。
国内企业如鼎通科技、奕东电子生产的组件经过客户集成其他功能后形成连接器模组,最终供应给下游客户。
但 未来随着国内算力建设,下游客户对国产化内部器件的需求增长 ,国内供应商有望从细分器件逐步突破海外垄断。譬如去年上市的华丰科技,在去年上半年已经成功研制 224Gbps 高速背板连接器。
国内来看, 新易盛 在高速 AEC 电缆模块有所布局; 瑞可达 AEC 系列产品目前相关项目正在推进中; 兆龙互连 已规模化生产应用于传输速率达到 400G 的高速传输电缆及组件产品,无源铜缆和有源铜缆产品可针对情况提供不同解决方案 ( 仅作分析说明,并非推荐 ) 。
从成本来看,高速铜互连的单位价值量或无法与光模块相提并论,但随着算力基建在规模量级上的突破,成本和性能将是科技巨头们不得不去平衡的问题,一些短距离的互联场景将逐渐被高速铜缆填充。
这意味着,一批新的 ” 卖铲人 ” 正在徐徐走进这个赛道,跟光模块的故事极其相似,预先享受到了估值端提升。
技术路线的迭代只是一个契机,对于国内企业,高速铜缆仍然具备比较高的门槛,从技术研发,产品验证,到进入供应链,收获业绩爆发增长,这个过程仍存在着不及预期的可能性。
格隆汇声明:文中观点均来自原作者,不代表格隆汇观点及立场。特别提醒,投资决策需建立在独立思考之上,本文内容仅供参考,不作为任何实际操作建议,交易风险自担。
本文来自微信公众号 ” 格隆汇 APP”(ID:hkguruclub),作者:弗雷迪,36 氪经授权发布。