中国工程院院士刘韵洁:我国算力网发展前景及挑战


无为
无为 2023-07-24 09:44:41 53364
分类专栏: 资讯

“东数西算”是我国为促进数字经济发展、建设数字中国而推动实施的一项国家战略工程。算力和网络的发展日益呈现一体共生趋势,网络从连接算力演进为动态感知算力、可定制承载算力,实现在网计算随需随算,算力无处不在。

数字经济发展对算力网络提出重大挑战

ChatGPT的出现让“算力网络”这一概念受到越来越多的关注,但美国通过限制相关技术和高端芯片的出口不断对我国进行挤压,企图通过5纳米、7纳米等高端GPU(图形器处理)芯片对中国禁运,让中国的算力尤其在智能算力方面永远落后于美国。面对这种情况,我们不仅要尽快突破算力网络关键核心技术,更要找到适合自身国情的算力网络发展路径。

以ChatGPT-3为例,它有1750亿个参数,其训练使用了微软的人工智能计算系统,该系统由1万个V100GPU和28.5万个CPU组成,每个GPU服务器拥有400Gb/s的网络性能,这样才能满足训练所需约3640PF-days(即假如每秒计算一千万亿次,需要计算3640天)的算力。由于美国高端人工智能芯片禁售,我国若要满足如此庞大的算力需求,除阿里、腾讯等大算力中心有这样的能力外,对于普遍需要大模型训练的单位而言,比较现实的路径就是把多个分散的数据中心通过网络连接起来,形成算力集群,开展协同计算、并行计算等来弥补单个数据中心算力不足的劣势。

然而,数据中心之间的连接和海量数据的传输又对网络提出更高的要求,即要能实现超长距离无损数据传输。国际上做过相关试验,在算力网络条件下,如果丢包率大于1%,传输效率将下降50%;如果丢包率大于2%,传输效率则将接近于0。这对我们实现数据远距离无损传输提出很大挑战,因此,我们建议利用确定性网络,并结合RDMA(远程直接数据存取)等无损传输技术来提升国家整体算力和网络资源效能。

确定性网络技术成为推动算力网络发展的关键

确定性网络技术得到国际同行的认可,相关研究也有很多。例如,IETF(国际互联网工程任务组)在2015年10月成立DetNet(确定性网络)工作小组,侧重研究为网络层数据传输提供确定性延迟、丢包、抖动以及高可靠性的标准和能力;3GPP(第三代合作伙伴计划)于R16、R17、R18标准先后支持IEEE(电气与电子工程师协会)TSN (时间敏感网络)协议的5G网络系统,确立5G系统的确定性机制并进行标准化;美国能源部、国际电工委员会(IEC)等组织也都制定了相关标准。国内方面,中国信息通信研究院联合国内多家网络相关单位共同组建的网络5.0产业和技术创新联盟,开展DIP(确定性IP)研究;工业互联网产业联盟启动“时间敏感网络(TSN)产业链名录计划”。

确定性网络正成为未来网络产业发展的核心,也是我国在网络领域实现“换道超车”的重要历史机遇。那么,如何实现网络的确定性服务能力呢?这就需要一个新的网络体系架构。基本思路就是把网络软硬件设备进行解耦,将网络资源尽量开放,功能细化,变成可重构、可调度的模块,实现网络资源的灵活调度控制和按需配置。基于此,我们在全球率先提出“服务定制网络(SCN)新型网络体系架构”,在网络承载、网络控制、网络服务三个平面实现多项核心技术突破,改变传统互联网TCP/IP协议僵化和不可控问题,实现互联网核心技术的自主可控和发展主动权。

而这个架构的实现需要有一个大网的操作系统,它就像网络的“超级大脑”一样,能对整个网络资源进行实时数据采集和分析,对网络进行融合控制,从而确保网络服务能力确定性可控。我国具有自主知识产权的大网操作系统目前已在400多个城市、1100多个节点的骨干网上稳定运行了5年。

在大算力场景下,确定性网络在满足数据高速、远距离、无损传输需求方面具有明显的优越性。从未来网络试验设施(CENI)现网测试数据可以看出,基于确定性网络技术的传输效率远远优于传统网络技术,如相较于FTP(文件传输协议)效率可提升36倍,相较于QUIC(快速UDP网络连接)效率可提升15倍,且对于线路延时、丢包的鲁棒性更好。因此,确定性网络将成为支撑大算力应用高速传输的坚实底座。

确定性网络正在助力数字经济高质量发展

实际上,目前相关团队正在规划将确定性网络应用在“东数西算”工程项目中,依托未来网络试验设施建设连接“东数西算”八大枢纽节点数据中心的“确定性新总线”,项目完成后将极大地提升我国算力资源使用效率,为电力、气象、能源等重大应急安全领域提供安全、可靠、高效的网络支持能力,助力我国数字经济高质量发展和碳达峰、碳中和目标的实现。

图片

“东数西算”工程解读。

ChatGPT的出现加速了人工智能大模型时代的到来,未来每个行业,甚至每个企业都可以拥有自己的大模型,这要求网络能够提供全域确定性服务能力。目前,我国已基于未来网络试验设施构建了覆盖全国35个城市的广域确定性网络,可实现跨一万公里数据传输,端到端的时延抖动小于50微秒,做到零丢包、不乱序,可为将来不同行业、不同场景下的大模型训练提供确定性网络支撑能力,大大提升了大模型的生成效率。

此外,确定性网络还可为工业互联网、能源互联网、元宇宙、科学研究等典型场景提供高效的网络支撑能力。以“中国天眼”——500米口径球面射电望远镜(FAST)为例,当前,FAST每小时产生超过7TB的巡天数据,这对网络传输、数据存储、计算处理能力都带来严峻挑战。项目团队依托未来网络试验设施,建立算网融合的FAST巡天科研环境,协助FAST团队突破海量科学原始数据的快速传输、高通量计算难题,极大地提升了技术创新效率。

图片

“中国天眼”——500米口径球面射电望远镜(FAST)位于贵州省黔南布依族苗族自治州境内。

面对互联网下半场发展,即从消费领域进入实体经济的历史机遇期,确定性网络有望解决传统互联网拥塞无序的问题,推动互联网从“尽力而为”到“确保所需”的技术体系变革。希望我们能抓住这一重大机遇,不断突破确定性网络核心技术,不断发展完善确定性网络相关产业生态,实现核心标准、芯片、设备的自主可控,引领算力网络技术和应用的发展。

网站声明:如果转载,请联系本站管理员。否则一切后果自行承担。

本文链接:https://www.xckfsq.com/news/show.html?id=26765
赞同 0
评论 0 条
无为L3
粉丝 1 发表 70 + 关注 私信
上周热门
如何使用 StarRocks 管理和优化数据湖中的数据?  2947
【软件正版化】软件正版化工作要点  2867
统信UOS试玩黑神话:悟空  2828
信刻光盘安全隔离与信息交换系统  2723
镜舟科技与中启乘数科技达成战略合作,共筑数据服务新生态  1256
grub引导程序无法找到指定设备和分区  1221
华为全联接大会2024丨软通动力分论坛精彩议程抢先看!  164
点击报名 | 京东2025校招进校行程预告  163
2024海洋能源产业融合发展论坛暨博览会同期活动-海洋能源与数字化智能化论坛成功举办  162
华为纯血鸿蒙正式版9月底见!但Mate 70的内情还得接着挖...  157
本周热议
我的信创开放社区兼职赚钱历程 40
今天你签到了吗? 27
如何玩转信创开放社区—从小白进阶到专家 15
信创开放社区邀请他人注册的具体步骤如下 15
方德桌面操作系统 14
用抖音玩法闯信创开放社区——用平台宣传企业产品服务 13
我有15积分有什么用? 13
如何让你先人一步获得悬赏问题信息?(创作者必看) 12
2024中国信创产业发展大会暨中国信息科技创新与应用博览会 9
中央国家机关政府采购中心:应当将CPU、操作系统符合安全可靠测评要求纳入采购需求 8

加入交流群

请使用微信扫一扫!