Original Research

2023/11/4合伙人 陈天伦📖 约 11 分钟阅读

引言:自人类迈入信息化时代以来,传输和存储,始终扮演着企业IT基础设施的底座。尽管中国的通信网络从2G时代“一步一个脚印”,已然登上世界的5G主舞台,却仍无法摆脱“与周期共舞”的烙印;然而当下,情况似乎不一样了。AI正在以前所未有的速度重塑企业的基础设施,掀起算力、存储、传输架构的时代革命,为传统行业注入一汪活水。当传输行业邂逅AI,这棵“老树”将长出怎样的“新花”?

我们眼中的“大传输” 提到“数据传输”,行业难免指向传统意义上的通信网络。过去20年间,我们陪伴中国底层通信网络实现了从2G到5G的飞跃,也见证了华为等一众产业巨头的崛起。然而,当我们经历了5G大基建、IoT万物互联,再到方兴未艾的AI数智化风潮,“大传输”行业已具备了焕新的骨架——行业亟待建立统筹光电通信、终端互联、数据中心的“大传输框架”。 究竟什么是“大传输”?或者,当产业进化,“大传输”被赋予了怎样的时代使命? 传输行业1.0(主线信息化,-2010):成熟期 暨传统意义上的通讯产业,面向运营商构建以ICT硬件设施为基础的网络底座,本质上是以光电转化为核心的通信传输。在相当长的时间内,中国通讯产业的发展既受制于产业链寡头的话语权,以及由此衍生封闭、失衡的产业竞争格局;同时,又面临运营商资本开支的周期性考验。 传输行业2.0:(主线数字化,2010-2022):相对成熟期 暨物联网和移动互联产业,面向移动终端、应用和消费者,通过WiFi、低功耗蓝牙和UWB等技术,构建万物互联的终端网络,本质上是以信号交互为核心的移动互联传输。这一时期,物联网技术走向成熟,“应用上云”成为不可逆的历史潮流;而移动传输承载的数据量相对有限。 传输行业3.0:(主线智能化,2023-):新兴成长期 暨AI大模型时代海量非标数据所催生的智算、智存、智传产业,面向企业和开发者,传输成为连接数据中心、算力和存储单元的重要枢纽,本质上是以面向场景的AI基础架构为核心的数据中心传输。相较于移动传输,下一代数据中心强调AI对于大容量、高带宽、低时延传输的需求升级,以及数据中心边缘侧、端侧、板间、片间、片上的高速互联。当下,伴随方兴未艾的智算中心大基建,高速互联的需求即将迎来蓬勃增长。

图 – 传输产业的历史与未来(来源:远桥研究)

我们眼中,传输产业既背负了历史的沧桑和厚重,也即将在AI时代迎来焕新革命。为更好地统筹传统光电通信、移动互联和新型通信的关系,我们以传输载体为基础,解剖上游产业链,构建了“通信基站—运营商—数据中心”的大传输产业图谱。

图 – 大传输产业图谱(来源:远桥研究)

专网泛在化,云算网一体 中国通信产业的迭代,造就了举世闻名的“基建神话”:截至当前,我国已建成全球规模最大、技术领先的5G网络。9月底,我国累计建成开通5G基站318.9万个,5G移动电话用户达7.37亿户,5G行业虚拟专网超2万个。 尽管数据光鲜,但实际成效不尽然,5G产业面临“增量困境”:一面是国家意志牵头,发政策、上项目、给补贴,强行送了5G产业一程;一面是运营商入不敷出,大搞基建的背后,是投入和产出的失衡。从产业链上游看,相对饱和的市场面临“增量困境”,5G基站建设进展实际慢于预期,相较于4G时代连年走高的资本开支,运营商在5G建设的中期却“偃旗息鼓”了。 增长困境的背后,是5G的To B应用尚未规模化。5G的核心边际效益,对于普通消费者而言并不显著,更多针对自动驾驶、4K/8K超高清视频、元宇宙及数字孪生等B端场景。上述场景正在从“概念”走向“现实”,但真正规模化却必须考虑:技术与商业路径的闭环、投入与产出的关系、市场教育与实际需求的起量……显然,垂直场景的5G应用之路是必然趋势,却还有3-5年的距离要走。 AI时代,传统传输行业是否真如二级市场所言“通信已死”?又有哪些新变化? 我们眼中的核心趋势:专网和边缘计算泛在化,公专融合、云算网一体 所谓“天下大势,分久必合,合久必分”,在传输产业同样有迹可循。经历了移动传输时代的“上云”风潮,传统的集中式数据中心和公网通信,已逐渐无法满足下游的数据传输需求。 为什么?当下,企业面临的挑战更多了: • 高度多元的数据形态:从相对单一的格式数据,到以图像、视频和3D热数据为代表的异构数据、 • 超大容量的数传需求:大模型时代的底层数据正在经历指数级增长 • 极低延时的场景冗余:区别于传统消费场景,以工业、汽车、医疗等专业场景为代表的To B应用,需要更低延时、更快速率、更精准控制的柔性网络 怎么解决?分布式通信和边缘侧的本地专网建设,正在成为主流方案。

以工业场景为例:边缘侧的专网和计算需求(来源:远桥研究)

什么是边缘?我们眼中:有电、有网、有数据,决定了垂直场景的介入价值。传统意义上的边缘侧,是指距离数据中心和基站存在一定距离,但具备高速数据传输和计算需求的垂直场景。“有电”意味着“能源”、“有网”意味着“通信网络”、“有数据”意味着“计算和场景应用价值”。 传统公网正在向“公专融合”迈进,掀开云算网一体新时代。随着 5G、MEC 和 AI 的发展,算力已经无处不在,网络需要为云、边、端算力的高效协同提供更加智能的服务,计算与网络将深度融合,迈向云网融合 2.0,即云、算、网一体的新阶段,根据“应用部署匹配计算,网络转发感知计算,芯片能力增强计算”的要求,在云、网、芯三个层面实现深度协同。 垂直场景应用泛在化,专网和边缘计算泛在化。按上述标准,未来的边缘侧将越来越多,边缘存储、边缘计算、边缘专网通信的需求将越来越大,云—边—端的交互会越来越多。“合久必分”的背后,是工厂、学校、医院、企业园区等垂直场景,数据应用呼唤更安全、更可靠、更灵活的边缘计算和传输基础设施。

展望大AI时代:迎接高速互联 AI是影响传输产业剧变的核心变量,AI催化是观察传输产业增长的主逻辑。从传统通信网络向“公专一体、云网融合”转变,背后取决于垂直场景的数智化应用需求,带动了存、算、传基础架构的融合与创新;而在数据中心内部,存、算、传打通一体,AI呼唤新型数据中心更高要求的存储和传输体系,以形成新一代“智算中心”。 “兵马未动,粮草先行”,AI所对应的高速互联正在成为重要的底层设施。新一代智算中心架构下,数据中心与数据中心之间、处理器与处理器间、处理器与存储间的数据交互将更加频繁,也对接口传输速率提出更高要求。服务器内板上通信技术迎来大规模升级,这将推动接口通信芯片、片上互联技术的规格大幅提升,带来全新市场机遇。 核心趋势1——数据中心间互联:高速光模块及光芯片 AI大模型催生高性能AI服务器集群的建设需求,而集群间通信需要800G及以上的高速光模块作为支撑。影响高速光模块采购的核心变量:1)数据中心总算力规模;2)数据流量规模。显然,在大厂争相涌入算力的“军备竞赛”,垂直场景数据训练层出不穷的当下,上述两个变量正在呈指数级增长。算力翻倍迭代周期从21.3个月缩短至5.7个月;GPT-3模型参数量增长近100倍,训练数据量从5GB增长至45TB,增幅近万倍。大模型的普及,为构建现代高速信息网的基础元器件的光模块需求带来巨大增量。 AI大模型产业化提前了800G光模块的量产和放量时间。据Lightcounting数据,2020-2022年是400G光模块的快速起量期;而在2023年下半年起,800G光模块产品已开始进入测试和出货阶段,并在2025年底开始主导市场。根据TrendForce估计,大模型对GPU的需求接近2万颗,单个GPU对光模块的需求大约为5个(参考英伟达GPU H100网络架构)。假设按照未来新增100个大模型计算,光模块的新增需求=2万×5×100=1000万个。 光模块的核心是光芯片,而高速光模块的光芯片更加重要。高速光模块成本结构中,光器件占光模块成本73%(其中以激光器为主的光发射组件成本占比达48%,以探测器为主的接收组件成本占比达32%),电路芯片占比18%,光接口占比9%。激光芯片和探测芯片在整个光模块占比超过50%,传输速率越高,光芯片成本占比越高。

图:光模块的核心成本剖析——光芯片是最重要卡位(来源:ICC)

目前高速光芯片国产化率低,25G以上光芯片国产化率不足20%(以50G 激光器发射芯片为代表):25G及以上光芯片,主要用于移动互联网和数据中心市场,200G以上速率光模块,使用EML激光器芯片方案,但是芯片设计和工艺相对复杂,短期国产化率较低;根据ICC估计,2024年25G及以上光芯片国产替代率预计为20%。

核心趋势2——片上高速互联:高速Serdes的国产攻坚 SerDes为PCIe、以太网等协议提供物理层(Physical Layer,PHY)基础。SerDes在电信、PC/服务器、数据中心、固态硬盘存储等领域应用广泛;按照应用连接类型,SerDes技术主要用于芯片与芯片的互联(如在PCIe PHY中)、以太网互连(如在Ethernet switch PHY中)、芯片与光模块的互联(如在ODSP PHY中)。Serdes IP的需求取决于芯片互联的需求,对于速率的要求尤甚。 接口升级推动底层SerDes高速化,高端接口IP增长强劲。伴随以GPU为代表的新一代计算芯片需求井喷,片上互联的核心技术授权Serdes IP成为炙手可热,尤其体现在112Gbps以上的高速互联领域。 现有市场的三类Serdes IP供应商可分为:1)独立北美大厂:Cadence、Synopsys、Rambus等,可实现112Gbps SerDes 多协议PHY;2)各大芯片自有体系、自研IP,如Intel、Marvell等;3)独立的国产第三方IP提供商,以芯动科技为首的国产企业已积极突破高速Serdes技术,现基本达到国际先进水平的70%左右。 核心趋势3——片间融合与互联:NVLink/NVSwitch效能较传统PCIe增长数倍 PCIe是面向CPU为核心的传统计算架构中的核心互联接口,处于持续迭代之中。CPU迭代加速PCIe 5.0大规模商用。以PCIe SSD为例,市场呈现出多版本并存的局面,根据Forward Insights(3Q21)数据,2021年PCIe 3.0、4.0在所有数据中心PCIe SSD市场中的份额分别为81%和19%;而根据FW预测,到2025年PCIe 5.0的渗透率有望达到57%。接口芯片的放量直接受益于CPU与CPU、CPU与存储单元之间的互联愈发频繁和加速。 多GPU间通信时PCle或存在带宽瓶颈,新互联技术应运而生。面向AI的新一代智算中心,以GPU和异构AI芯片为核心计算架构;区别于传统的CPU计算架构,算力的持续增强不仅依靠单张GPU卡的性能提升,往往还需要多GPU卡组合。在多GPU系统内部,GPU间通信的带宽通常在数百GB/s以上,PCIe总线的数据传输速率容易成为瓶颈,且PCIe链路接口的串并转换会产生较大延时,影响GPU并行计算的效率和性能,其他专用互联技术应运而生,如英伟达提出的NVLink/NVSwitch、AMD提出的Infinity Fabric等。根据英伟达官网,对比基于PCIe的系统,基于NVLink的系统在交换/排序/3D FTT性能上分别提升约5倍、1.4倍、2倍。 国内呼唤开放、中立的GPU间互联体系。伴随NVIDIA高端GPU受限,国产GPU进一步享受了当前形势下的需求红利。以华为、寒武纪为代表,先后自研建立了AI芯片的互联架构(如华为的HCCS、昇腾芯片的集群组网能力等)。随着国产GPU性能和量产速度加快,预计未来3-5年内必然会衍生GPU片间高速互联的现实需求,以在广阔计算芯片的土壤上重新开出“传输之花”。 阶段性小结

传输行业虽自古而有之,但在AI蓬勃席卷的当下,正在焕发出全新的生机与革命。 置于通信产业框架下:传统公网无法满足垂直场景的数智应用需求,倒逼基础设施革新,演化出专网泛在化、“公专一体”、“云算网融合”等新型通信和网络架构。 置于大传输产业框架下:AI大模型训练量指数级增长,加快重塑基础设施架构,形成下一代智算中心为代表的新型数据中心,带动传输模块的革命性创新:

阅读原文 →