如今,算力已成为数字经济时代的关键生产力,是全社会数字化、智能化转型的重要基石。但是在算力落地方面并非畅通无阻。
“在应用方面,算力资源并没有充分发挥作用。要研究为什么利用率低、哪些环节没有打通。”在日前举办的2023中国算力大会上,中国工程院院士刘韵洁表示。
“天堑分流引作渠,一方擅利溉膏腴”,如同农业时代的灌溉用水千万不能有堵塞点一样,数字经济时代的关键生产力——算力的落地赋能也不能有滞涩点,这就需要我们精心设计打造一张高效智能的IP骨干网,确保算力在国民经济的高质量发展中充分发挥滋润作用。
算力灌溉渠系面临挑战
黄河九曲,唯富宁夏,这背后是先民以智慧与汗水,建造了宁夏平原灌溉渠系,造就了“塞上江南”的奇迹。在算力成为新型生产力的现在,IP骨干网已经成为算力时代的关键基础设施和重要技术底座,被视为信息的“大动脉”,堪称当代的算力灌溉渠系。然而,这个算力灌溉渠系正面临如下几个挑战。
无处不在的算力需求:云手机、云游戏、数据快递、VR/AR、物联网及工业互联网等新型应用需要触手可及的算力支持;与此同时连接设备数量剧增,要能够实时灵活地提供算力,这些都对网络的灵活连接提出了更高的要求,需要算力与网络相互感知,实现“网络+算力”的联合优化调度。
网络无丢包、算力高效释放:数据中心是算力的“发电站”,必须保证算力的最大产出。随着数据规模的不断扩大,单数据中心算力有限,多数据中心协同成为必然趋势。比如数据训练业务,模型参数规模已达万亿级,需要IP骨干网跨地域连接多个数据中心组建大规模算力集群,这给IP骨干网带来巨大挑战。以广东深圳某实验室跨省的五个数据中心协同训练场景为例,0.1%的丢包会导致网络吞吐率下降50%,造成算力资源的严重浪费。
确定性体验保障:随着实时交互等新型业务的发展,对于租用互联网专线的企业用户和OTT来说,低时延成为核心诉求和关键竞争力,时延指标最优的运营商优先中标,运营商基于SRv6等新能力打造低时延平面和产品,为不同的业务提供差异化SLA保障,要求网络具备根据需求随时调整路径的能力,解决流量突发、光纤链路故障造成服务质量下降等问题。
算力时代IP骨干网必须与时俱进
宁夏的引黄灌溉渠系,承继历代开凿的秦渠、汉渠、汉延渠、唐徕渠、七星渠等秦汉至明清开凿的14条千年古渠系,并不断修浚和挖新,才成就了流润千秋、惠泽至今的佳话。算力时代的IP骨干网也必须与时俱进。
在算力时代,业务场景对IP骨干网的诉求绝不仅仅是大带宽、大容量,还需要超高可靠性、高度智能化、超高安全性以及超强的可维护性……这些特性甚至比带宽容量更为重要,因为带宽容量不是这个时代骨干网的关键瓶颈。面对上述挑战,IP骨干网作为覆盖全国的关键信息枢纽和算力灌溉渠系,承载全国数据流量,仅依靠其传统的带宽能力已无法满足算力时代的业务发展要求,它的可靠性、智能化、安全性以及可维护性等重要特征亟待全面夯实或升级。
可靠性夯实:在全球领先的运营商及大中型企业客户中,IP骨干网承载千万级用户流量,是“神经中枢”和“咽喉要道”,如果中国发生类似2022年KDDI或ROGERS断网事件,会有数以亿计的用户受到影响。事实上,国内运营商从未发生过如此严重的事故,这是国内运营商和设备厂商近20年共同努力的成果。
智能化升级:算力时代的业务场景要求我们在算力网络中融入更多AI元素。比如面向海量数据搬迁业务,要求网络提供弹性超宽的管道,实现带宽专线更细时间颗粒度的灵活订购能力;为高价值VIP业务提供超低时延通道;为跨数据中心数据传输提供零丢包保障;甚至在网络带宽不足、光纤传输故障等场景导致网络拥塞、丢包问题时提供能力及时补位,这实质上已经超越了传统的IP骨干网的能力。所有的这些能力,通过传统的网络设备软硬件是没法实现的,必须有AI加持。
安全性升级:近年来网络安全事件频发,其中既有因为误操作和黑客引起的路由事件,也有攻击频率、强度逐年递增的DDoS攻击,给运营商和相关企业带来难以估量的经济损失。比如路由出现问题时,面临故障影响大、定位耗时长、难回溯、缺乏有效的监控手段等诸多难题,需要在IP骨干网上对路由信息进行有效的监管,精确记录并识别路由属性变化、提前告警、主动防御、问题追踪溯源,加强全量路由的安全管理及故障定位能力;DDoS攻击流量隐藏在业务流量中,如果IP骨干网能对攻击流量进行秒级识别,则可以极大地提高DDoS攻击处置效率,扭转传统防御方案的窘境。
可维护性升级:近年来,在全球运营商的几次重大网络事故中,除了设备本身的问题,也暴露出在网络操作过程中对网络变化的评估和验证不够充分、故障应急措施不够完备等情况,导致出现问题后业务恢复时间过长。对此,国内运营商在运维领域,从设备选型测试开始,到版本入网管控、操作管理规范、网络风险规避等方面做了大量的工作,积累了丰富的实践经验,比如中国移动已经实现100%网络故障在1小时内完成恢复。对设备厂商来讲,关键问题是协助运营商打造超强韧性的网络,首先采取实时感知、及时隔离和倒换等措施让网络故障尽可能不影响业务,同时借助AI对网络故障进行智能分析和快速恢复。
黄河径流,浸润“塞上江南”;引黄灌溉,九渠福泽万家。如今,算力灌溉渠系——IP骨干网在经历可靠性夯实、智能化升级、安全性升级和可维护性升级之后,将向实现“使用算力就像使用水电一样方便”这一算力时代的终极目标迈出坚实的一步,算力时代将不止只富一家,而是天下大同。