万亿大模型存力受限?宝德自研AI数据湖存储来破局


lingdu
零度 2023-08-01 10:22:11 50486
分类专栏: 资讯
近年来,随着人工智能模型产业的快速发展,尤其是在Transformer结构出现以后,AI大模型规模逐步提升。ChatGPT的问世,更是掀起了一场“百模大战”,大模型参数量实现了从亿级到万亿级的突破。
而大模型所谓的“大”,体现在模型的深度学习网络层数多、链接多、参数复杂,以及训练所用数据集种类更复杂,数据数量更丰富。模型规模的提升,带来了AI相关海量数据的增长,也带来了存储和处理这些数据的难题。大模型训练不仅受限于海量的算力, 更受限于巨大的存力瓶颈。

大模型时代,AI存力与算力同样不容忽视

数据存力是算力价值的前提和基础,只有数据存得好、算得快、传得稳,整个算力基础设施才能够发挥数据要素的价值,才能更好地支持大模型中的信息实时传输和高效率读写。随着算力需求的迅速提升,支撑起庞大AI算力的存储系统也亟待升级。如若存储系统的性能无法匹配强大的算力,那么GPU/CPU算力将会由于数据无法跟上而处于等待状态,将会严重浪费庞大、昂贵的算力基础资源投资。
当前,大模型应用场景对数据存储提出了以下挑战:

1

数据归集速度慢且来源复杂,预处理阶段难以实现统一访问。数据类型多元复杂,服务协议多样,传统存储面向单一数据类型设计,难以以统一的方式进行访问和处理,数据归集流程慢。

 

2

海量小文件数据加载慢,存储性能不足导致算力无法充分发挥。大模型对存储系统的读写性能要求较高,特别是在训练过程中需要频繁地读取和写入数据,而且需要支持快速的随机访问。数据通常以图片、文档等小文件的形式存在,由于这些小文件的数量巨大,传统存储系统可能无法高效地处理这些数据,导致加载速度缓慢。

 

3

宝贵的研究数据,在各个阶段面临可靠性和安全性问题。大模型通常使用敏感数据进行训练和推断,在存储时需要保证数据的安全性和完整性,防止数据外泄、篡改或被恶意攻击。一旦存储数据损坏或丢失,可能会导致训练结果的丢失或者准确性下降。

 

4

大容量存储需求。大模型需要处理大量的数据,包括输入数据和模型参数。这些数据往往非常庞大,需要大量的存储空间来保存。

为了解决大模型时代的数据存储难题,并适应AI大模型的发展需求,宝德重磅推出了完全自研的AI数据湖存储——PLStor GS9200来破局!      
宝德PLStor GS9200是一款面向大模型多应用场景,以性能为中心,具备高可靠、简单易用和丰富企业级功能等优势的领先并行存储系统。其存储集群支持无上限的大规模扩展,可以轻松扩展到EB级别,并能够承载上万台AI/异构算力服务器,满足大容量存储需求。    

 

极致性能

海量小文件高吞吐量、计算客户端高读写

 

宝德PLStor GS9200提供了业内领先的基于os内核程序优化设计的原生客户端,以一客户端对多台存储节点的方式并行读写数据,支持RDMA技术。整个系统能提供上TB/s级的吞吐带宽。

在实际运行中,宝德PLStor GS9200的单台计算节点能够充分利用自身的网络吞吐极限能力,进行数据读写。例如,配置了400Gbps Infiniband网络的PLStor GS9200单台节点可以获得≥45GB/s的读写带宽。宝德PLStor GS9200在性能测试中表现出色,相比于业内友商和开源系统,每块Nvme-SSD在该系统中可以提供超过4.3GB/s的读写性能,提升了150%;而每块SATA硬盘的读写性能超过120MB/s,提升了80%。

 

 

存算融合

多级存储满足不同阶段的数据存储需求

 

宝德PLStor GS9200采用存算融合的设计,可以整合计算节点内的存储资源,构建全局命名空间的近线存储池。这使得AI计算可以像访问本地资源一样访问并行文件系统,实现文件共享和高并发读写访问。通过存算融合的部署方案,可以实现灵活配置数量来扩展GPU/CPU计算资源和存储资源,以满足动态扩展的业务需求。

 

 

数据安全无小事,软硬实力两手抓

 

宝德PLStor GS9200保证并行存储系统在数据安全性、高并发读写、高空间利用率三者皆得。它采用N+M纠删码来设置数据保护等级,并具备自动故障检测与恢复机制,实现硬件系统故障自动快速恢复重建。系统同时支持智能快照功能,可以创建多达无限数量的基于增量历史时间点拷贝。当发生数据“软”故障,比如软件程序导致的数据损坏、病毒破坏、意外删除等,可以通过对合适的时间点标记进行“回滚”来快速恢复数据。此外,系统还支持权限控制列表ACL等功能,以及更多可灵活配置的文件访问权限控制选项,以满足不同场景下的数据安全存储和访问需求。

 

 

数据湖存储多协议互通,实现平台高效管理

 

宝德PLStor GS9200数据湖存储支持块、文件、对象、大数据等存储协议,并且支持POSI/NFS/CIFS/HDFS/S3/Swift等多种协议互通,可同时访问同一文件,避免因访问协议不同造成的数据拷贝。它还支持多协议同时读写,无明显语义损失,支持文件修改写、对象多段上传等常用语义,无需配置额外的网关。同时数据可根据应用需要在数据湖中进行可视的流动,简化数据归集流程,实现统一平台管理,大大提升业务与管理效率。

当前,万亿级AI大模型之战已经打响。面对万亿级参数量和PB级数据量带来的挑战,宝德PLStor GS9200并行存储系统凭借更高的可靠性、读写性能、兼容能力等优势,完美替代了传统的文件系统,支撑了大量人工智能、商用HPC项目的数据存储应用,并成功促进了超过五千台计算节点客户端、超过五百台存储节点的单一文件系统、超过100PB裸容量的单一存储池等诸多大规模项目落地,助力AI大模型等更多应用加速。
未来,宝德将持续技术创新,提供多样化的存储产品与方案,并积极携手更多合作伙伴,共同推进AI赋能千行百业,助力开启AI大模型时代新局面。

 

 

 

 

网站声明:如果转载,请联系本站管理员。否则一切后果自行承担。

本文链接:https://www.xckfsq.com/news/show.html?id=27007
赞同 0
评论 0 条
零度L0
粉丝 0 发表 12 + 关注 私信
上周热门
如何使用 StarRocks 管理和优化数据湖中的数据?  2959
【软件正版化】软件正版化工作要点  2878
统信UOS试玩黑神话:悟空  2843
信刻光盘安全隔离与信息交换系统  2737
镜舟科技与中启乘数科技达成战略合作,共筑数据服务新生态  1271
grub引导程序无法找到指定设备和分区  1235
华为全联接大会2024丨软通动力分论坛精彩议程抢先看!  165
点击报名 | 京东2025校招进校行程预告  164
2024海洋能源产业融合发展论坛暨博览会同期活动-海洋能源与数字化智能化论坛成功举办  163
华为纯血鸿蒙正式版9月底见!但Mate 70的内情还得接着挖...  159
本周热议
我的信创开放社区兼职赚钱历程 40
今天你签到了吗? 27
信创开放社区邀请他人注册的具体步骤如下 15
如何玩转信创开放社区—从小白进阶到专家 15
方德桌面操作系统 14
我有15积分有什么用? 13
用抖音玩法闯信创开放社区——用平台宣传企业产品服务 13
如何让你先人一步获得悬赏问题信息?(创作者必看) 12
2024中国信创产业发展大会暨中国信息科技创新与应用博览会 9
中央国家机关政府采购中心:应当将CPU、操作系统符合安全可靠测评要求纳入采购需求 8

加入交流群

请使用微信扫一扫!