lasticDL Kubernetes 原生深度学习框架


orchid
电梯物联网专家 2024-01-08 09:45:50 54010 赞同 0 反对 0
分类: 资源
lasticDL Kubernetes 原生深度学习框架

ElasticDL 是一个基于 TensorFlow 2.0 构建的 Kubernetes 原生深度学习框架,支持容错和弹性调度。

TensorFlow 具有故障可恢复的原生分布式计算功能,在某些进程挂掉的情况下,分布式计算作业将停止,但是可以重新启动作业并从最新的检查点文件中恢复其原有状态。

ElasticDL 在此基础上支持容错。ElasticDL 不需要检查点也不需要从检查点恢复,在某些进程挂掉的情况下,该作业将继续运行。

容错的特性使得 ElasticDL 与基于优先级的 Kubernetes 抢占一起实现了弹性调度能力。当 Kubernetes 杀死某个作业的某些进程以为具有更高优先级的新作业释放资源时,当前作业不会停止,而是使用更少的资源继续运作。弹性调度可以显着提高集群的整体利用率。

ElasticDL 弹性调度的特点来自其 Kubernetes 原生设计,它不依赖于像 Kubeflow 这样的 Kubernetes 扩展来运行 TensorFlow 程序。ElasticDL 作业的主进程直接调用 Kubernetes API 来启动工作程序和参数服务器,它还会监视诸如 process/pod killing 之类的事件,并对此类事件做出反应以实现容错。

此外,ElasticDL 还可以与 SQLFlow 配合,更加易于使用。

如果您发现该资源为电子书等存在侵权的资源或对该资源描述不正确等,可点击“私信”按钮向作者进行反馈;如作者无回复可进行平台仲裁,我们会在第一时间进行处理!

评价 0 条
电梯物联网专家L2
粉丝 1 资源 185 + 关注 私信
最近热门资源
银河麒麟桌面操作系统备份用户数据  124
统信桌面专业版【全盘安装UOS系统】介绍  119
银河麒麟桌面操作系统安装佳能打印机驱动方法  110
银河麒麟桌面操作系统 V10-SP1用户密码修改  104
最近下载排行榜
银河麒麟桌面操作系统备份用户数据 0
统信桌面专业版【全盘安装UOS系统】介绍 0
银河麒麟桌面操作系统安装佳能打印机驱动方法 0
银河麒麟桌面操作系统 V10-SP1用户密码修改 0
作者收入月榜
1

prtyaa 收益393.62元

2

zlj141319 收益218元

3

1843880570 收益214.2元

4

IT-feng 收益209.03元

5

风晓 收益208.24元

6

777 收益172.71元

7

Fhawking 收益106.6元

8

信创来了 收益105.84元

9

克里斯蒂亚诺诺 收益91.08元

10

技术-小陈 收益79.5元

请使用微信扫码

加入交流群

请使用微信扫一扫!