本文为《液冷服务器选型指南》系列选题文章之一,笔者通过对话一线液冷服务器专家,帮助用户了解液冷服务器选型的重要性和方法,提供液冷服务器选型的关键因素和考虑要点,通过对不同液冷技术的对比与评估,用户可以了解各种技术在性能、能效、成本等方面的差异。
在日前举办的2023年开放计算社区中国峰会(OCP China Day 2023)上,抖音视界有限公司数据中心技术总监井汤博以终端用户的角色,分享了当前主推方案面临的挑战和应对策略,并详细介绍了抖音基于业务的风液兼容数据中心规划与设计。
▲抖音视界有限公司数据中心技术总监 井汤博
抖音数据中心简介
在抖音集团内部,会把数据中心简单分为两个层次,即宏观的数据中心和狭义的数据中心。
从广义来说,抖音数据中心包括底层的基础设施和上层的IT设备(服务器、网络设备和相关的网络链路)。
从狭义来说,抖音数据中心的基础设施主要是风火水电的设备,包括所配套的一些电力、土地、网络和水资源。
值得一提的是,广义的数据中心在抖音集团内部会作为一个底座,去支撑上层的平台资源(数据库、操作系统、APP),包括头条、西瓜视频、公有云服务等。
抖音数据中心的技术理念主要分为五个方向:超大集群、节能降耗、高效稳定、极速交付和绿色低碳。其中,抖音的重点工作是保证数据中心的高效稳定和节能降耗。
同时,抖音数据中心更加关注两个点:超大集群,极速交付。超大集群是指多个大规模数据中心集群建设经验,单一集群达40万台,无损互联高性能RDMA网络,提供快速稳定算力支撑,服务器面向能效优化研发,提升单位能耗性能。
值得一提的是,抖音是一家年轻的公司,业务发展速度非常快,往往超出了IDC本身资源规范建设周期。
因此,在倡导技术理念的同时,抖音会主张极速交付,从规划设计、选址、资源选取都倡导工厂预制化、模块化交付(集装箱数据中心、预制化配电模块、预制化制冷模块等),从而提升工程质量,缩减交付周期。
抖音数据中心的技术演进
抖音从成立之初,在数据中心基础设施领域的技术演进过程,可以分为四个阶段:起步阶段、快速部署阶段,标准化阶段和绿色阶段。
在起步阶段(2012-2017年),通过采用一些简单的租赁型数据中心,来满足已有业务发展需求。
在快速部署阶段(2017-2021年),抖音倡导敏捷型交付,从数据中心获取到预制化的建筑、制冷方案、电力等模块,满足业务快速增长需求。
在标准化阶段(2021-2023年),抖音数据中心业务分为两个方向:标准化,节能的示范落地。这一阶段,抖音侧重于液冷技术的研发与试点,将以往的经验固化,进行标准化的设计和探索,从而保证平衡的质量和交付的权衡。
在绿色低碳和创新阶段(2023年-未来),基于国家对可再生能源的倡导,以及公司对成本和TCO的平衡,驱动新型制冷方案的诞生。
数据中心技术方案的决策过程
井汤博从脉络上给大家梳理了抖音集团内部对不同技术方案的决策过程,他表示,“我们并非只使用热点技术,而不使用过时技术,更多是从逻辑上分析问题,考虑其是否满足业务需求。”
整个决策过程包含两大因素:限制因素和可选因素。从抖音集团底层架构来说,限制性因素是很难被影响,包括政策,业务紧急需求,新一代IT的代际演变等。
可选因素包括特殊需求、TCO优化、挖掘潜力等。比如,数据中心的建设目标是什么,快速交付、低成本,还是满足政策对PUE或者绿色低碳的限制和要求?
随后,将这些条件输入决策矩阵中,通过项目落地和成本和进度可靠性复盘,来迭代设计优化理念和架构创新。最终,抖音集团内部就会遴选出来一些真正适合自身的技术方案。
如图所示,针对不同的业务驱动场景,抖音集团内部更关注的一些因素,成本优势、快速交付、稳定可靠、技术制约、资源制约、可持续发展等,它们会引导技术方案组合的决策。
当前主推方案面临的挑战和应对
基于上述决策逻辑,井汤博认为,“接下来在一段时间之内,冷板液冷会成为抖音主要的技术方案。”
冷板液冷是高功率密度和高效散热平衡的解决方案,可以降低PUE达1.2以内,提升资源利用率,便于老旧机房升级改造,适合大多数地区气候条件,具有极高性价比。
然而,冷板液冷技术本身的灵活性和响应不足,对服务器、IT网络、机房、存量的限制很多。一旦发生变更,从液冷变成非液冷,变更成本非常高。不同区域的方案差异较多,当IT发生代际变化和更新时,运维挑战会增加,进度影响也非常大。
因此,抖音归结出三个应对方式:定制化的专有设计、工程化、液冷专有。
在风液兼容方面,需要匹配业务变化波动和服务器代际变化,降低变更成本和进度影响,复用性增强。
在标准化方面,采用归一化设计,固化常规场景设计理念和架构,保证运维一致性高,变更成本低,业务迁移成本低。
在产品化方面,技术路线稳健迭代,推动技术有序演变,持续优化成本/质量和稳定性提升。
风液兼容规划需求和思路
抖音风液兼容规划需求来自于不确定性,通过产品化的规划,既有成熟方案的整合,合理的兼容假设,还有必要的成本增加和人力投入,最终产生风液兼容的设计。
整体规划需求是在规定时间和成本内,交付限度范围内的兼容性机房,并且满足稳定性要求。
抖音风液兼容规划的总体思路,大概分为两部分:一、从参数上,保证高灵活、高可靠和低成本。二、从收益和代价上,在满足业务的基础上,实现价值量化,保证ROI可控。
关于风液兼容技术方案的四个考虑点:建筑及空间兼容,制冷系统兼容,电力系统兼容,机柜及网络兼容。
制冷兼容包括冷源兼容、输配管路兼容、风侧末端兼容三方面。
电力兼容主要指电力资源的平面化、超电化,机柜供电区间的弹性化。
总体来看,风液兼容理念收益明显,兼容性强,匹配业务和IT代际变化,相对变更成本低,进度可控,业务比较友好,设计池化。当然,风液兼容理念的代价是初期投资略高,部分空间浪费和电力资源浪费。
风液兼容规划执行及落地
关于风液兼容规划执行及落地,抖音主要围绕需求管理、风险管控、代际迭代、产品化等方面着手。
井汤博指出,“在中国,我们进行了一些小范围的探索,在海外,也进行了大量的规划设计,未来风液兼容会作为我们的主推方案。希望大家可以一起共建风液兼容的行业生态。”
总结来看,风液兼容不是万能良药,有收益也有代价,关键要看“疗效”。风为主or液为主?取决于你的场景和收益。
定制化or规范化?取决于你在什么阶段。如果处于起步期,选择一个优秀的方案更好;如果处于成熟期,选择一个稳定规范的方案更为妥当。
网站声明:如果转载,请联系本站管理员。否则一切后果自行承担。
添加我为好友,拉您入交流群!
请使用微信扫一扫!