中国算力网赋能数字经济发展

中国工程院院士,鹏城实验室主任

高文

我来讲一讲算力网如何作为数字经济生产力来赋能数字经济发展的问题, 谈谈算力网的背景及算力网三要素—超级算力节点、直连光网络、算力资源调度。


可否像建设“电力网”一样建设“算力网”?

这一轮人工智能创新由数据、算力、算法驱动,这三者结合促成了人工智能和未来 社会大发展。算力在其中起到关键的作用。
根据2021至2022年清华大学、IDC(互 联网数据中心)等机构发布的《计算力指数 分析报告》,算力与数字经济、GDP(国内 生产总值)直接相关。报告指出,算力指数 每提升1%, 数字经济有关指标会增加3.5咖,   GDP增 长1.8 咖。 一 个 国 家 的GDP越 高,  算力指数就越大,反之亦然。目前美国GDP最 高,  算力指数也最大。中国GDP约为美国的 70%,  算力指数刚好也是美国的70%。这说 明算力、经济以及数字经济是正相关的。

目前,我国算力发展水平的涨幅是全球 国家中最快的,其他国家的算力发展指数每年基本保持在5%至6%,中国的算力发展指数以每年平均13.5%的速度在增长。总而言 之,  算力发展的快慢直接与经济相关,更直接的是和数字经济相关。

回顾电力工业革命,当时各国的工厂虽独自拥有柴油发电机或者水力发电机,但后来发现发电效率低下,于是各国开始集中建 设水力发电厂、火力发电厂,通过线路将电 力输送到各个地方的工厂、家庭,在第二次 工业革命期间,用来支撑社会快速发展

今天的算力布局和第二次工业革命开始时的布局类似,基本都是“各自为战” —这个地方建超算中心,那个地方建云平台,算力和云平台归属不同单位,这种分散且独立的布局显然对社会发展不利。大趋势是要 把所有的算力连接起来,形成“一张网”。

就像今天的“电力网” 一样,算力的使 用将来要形成“算力网”,用的人根本就不 需要知道算力来自哪里。比如我在深圳用算 力计算一个问题,算力很可能来源于深圳、乌鲁木齐或者乌兰察布等地,但对使用者而 言,不需要知道算力具体来自哪里。

我们认为,未来需要有算力网络把各种类算力规划到一起,以实现无感知差别的调度使用—让中国的算力使用起来能和电力一样,可以集中调配。电力调配方面,国家启动了“西电东送”工程,在算力调配方面,国家已经在规划“东数西算”工程,但还有很多技术问题需要解决。最大问题是如何以 “低延时、超宽带”的超级网络把算力连接 起来。这是我们研究“中国算力网”的原因。

“中国算力网”计划的发展愿景是,要像 建设电网一样建设算力网;像运营互联网一样 运营算力网;让用户像用电一样使用算力。这其中的技术挑战包括核心算力供给、超宽带连接、算力调度等。算力有三种: 第一种算力是 大家熟知的超算算力,比如进行石油勘探、天气预报用到的超算;第二种是云算力,比如各类事务的处理需要“云”,“云”是一种服务器组成的集群;第三种是发展最快的智能算力,典型的就是人工智能大模型训练所用到的算力。在核心算力供给方面,  2023年10月8日,工信部等六部门联合印发《算力基础设施高质 量发展行动计划》,提出到2025年,我国的算力规模将超过300EFL0PS(1EFL0PS表示 每秒进行百亿亿次浮点运算的能力),其中智能算力占比将达到35%。


中国算力网如何应对算力挑战

2025年,  我国算力规模要实现智能算力占比超1/3,我们如何应对挑战?首先,看能否建设好超级算力节点?是否能在短期内快速建设?就像电力网的建设需要我国三大电站或超大规模火力发电站供电,以保证电量 强有力供给一样。第二,看能否将所有算力 节点, 用超低延时、大带宽网络联结在一起?   第三,看能否把各地算力汇聚起来统一调度 使用?用户只需要提出算力任务,无须关心 在哪里算,用统一的调度系统调度就行。

我们在第一个核心要素—超级算力节点方面做了一些工作,包括在2020年打造了一台1KB(衡量存储容量的单位, 也表示传输速度) 、1EFL0PS智能算力的超级计算机 —“鹏城  云脑II”。“鹏城云脑II”用了国产自主研制  的4000多个AI处理器(GPU)  和2000多个中  央处理器,  这台超级计算机对做理论研究、做  技术、做应用都起到非常大的算力支撑。其性  能也非常好, 目前已经连续7次蝉联I0500全球超级计算机排行榜单冠军。

我们不仅通过“鹏城云脑II”向工业界 及合作伙伴提供算力,还自主研发了鹏城系 列大模型底座并已发布“鹏城.脑海”系列3 类大模型底座 —“7B模型”,具备70亿参 数规模; “33B长窗口模型”支持更丰富的 语义信息内容生产; “200B大模型”拥有 2000亿参数规模,  是目前以开源方式公开发 布的大模型中规模最大的自然语言处理模型,  其模型代码免费向大模型技术研究人员开放。

“200B大模型”拥有104层网络及4000多颗芯片,我们将其训练出来只花了几个月的时间。该模型所需的1EFL0PS算力放在 2025年中国智能算力需求总量105EFL0PS 中不算什么,占比仍不足1%。在建好超强 算力节点方面,鹏城实验室正规划打造下一 台超级计算机并将在2024年下半年或2025年上半年推出。届时,这台机器大概能提供16EFL0PS算力,拥有很强的核心算力供给能力,可媲美我国电力供应中三峡发电设施在我国总发电量的占比,可为人工智能和数字经济发展提供强大支撑。

第二个核心要素,超高速大容量直连全 光运力网络建设。目前,“东数西算”工程 已启动建设8个国家算力枢纽节点,并规划了10个国家数据中心集群,现有通信网络能够 提供单波100Gb/s(十亿比特,是数据传输 速率的单位)到400Gb/s带宽传输速率。但若要支撑“中国算力网”计划中的算力传输容量和时效,这种传输能力效率是不够的。 也许有人说可以连速率更高的单波, 800Gb/s 不够,可以连超1Tb/s(太万亿比特字节, 计算机存储容量单位,  1TB=1024GB)  。为在超低时延超宽带传输下实现算力无感调用,我们希望这些节点的连接容量不低 于100TB,最 好 能 达 到PB(千 万 亿 比 特,1PB=1024TB),  现在技术实现成本太高,我们正在研发新技术,以降低连接成本。

具体来说,我们要建设新型全光通信网络。在传输速率层面,网络节点间通过空芯光纤(以空气为传输介质,替代传统以玻璃 实芯作为传输媒介的光纤)光速直连,在空 芯光纤介质里实现数据传导的大容量超低延时。目前我们完成了154Tb/s的空芯光纤传输系统实验论证。在传输效率层面,通过空分 复用(SDM)多芯光纤技术,像建高架桥一 样,  在带宽有限的情况下增加空间维度,  在相 同带宽下实现不同空间并行使用,成倍提高光 通信网络整体传输容量。这就能在单光纤单波100GB传输效率的基础上,低成本实现信号超 高带宽、超低延迟传输。这种信号传输形式,   可类比“西电东送”工程的特高压。

第三个核心要素是算力资源的自由调动,即把用户提交的数据和计算任务封装起来,便于在调度中心对算力资源进行统一分配。其中,不同算力在异地使用和调度对现有底 层网络架构和上层软件平台提出了巨大挑战。

我们正探索通过云原生网络等基本技术,  把传统的接入网、承载网和“云”汇聚,变 成以“云”为中心的体系架构。这项工作在国家发改委支持下,从2019年至今已汇聚了20多个异构算力集群和3个EFL0PS智能算力,但距离2025年105EFL0PS的 算力需求还差很多。我们正在加速汇聚算力,希望到 2025年能汇聚100EFL0PS的算力,通过分布式协同方式,对资源进行调度管理

“中国算力网”将是若干年后的算力和 生产力发展的重要支撑,是将多项核心技术集成融合的新型信息基础设施,可为数字经 济高速发展提供强大动力。希望大家携手推进相关技术研究工作,切实为我国数字经济高质量发展作出更大的贡献。


(本文由本刊编辑李靖恒、陈燊华根据作者2023年 11月25日在第五届世界科技与发展论坛平行论坛之世界 数字经济论坛的主题报告整理,经作者修订,有删节)