EasyMR 大数据组件升级


FontEnd
FontEnd 2024-10-10 11:08:33 4227 赞同 0 反对 0
分类: 资源 标签: 运维
EasyMR大数据组件升级

EasyMR 作为袋鼠云基于云原生技术和 Hadoop、Hive、Spark、Flink、Hbase、Presto 等开源大数据组件构建的弹性计算引擎。此前,我们已就其展开了多方位、多角度的详尽介绍。而此次,我们成功接入了大数据组件的升级和回滚功能,能够借助 EasyMR 来掌控大数据组件的升级与回滚流程。

 

在本文中,我们就将为大家详细介绍在 EasyMR 中如何接管大数据组件的升级和回滚流程。

 

传统大数据组件升级

 

大数据技术当下是全球各行业的核心技术之一,其核心要义在于把数据拆解为更小的数据块,然后在分布式的环境中加以处理。Hadoop 和 Spark 作为当前最流行的大数据处理框架,它们通过不同的方法来实现这一目标。

 

而在传统的大数据组件升级流程中,通常会遵循以下几个步骤:

 

● 环境准备

· 确保当前环境满足新版本 Spark 和 Hive 的依赖要求

· 备份当前的配置文件和重要数据

 

● 下载软件

· 从官方网站下载新版本的 Spark 和 Hive 安装包

 

● 停止服务

· 在升级前,停止所有正在运行的 Hadoop、Hive 和 Spark 服务

 

● 替换安装包

· 将下载的新版本 Spark 和 Hive 安装包替换旧版本的安装包

 

● 配置 Hive

· 解压 Hive 安装包并重命名目录

· 修改 hive-site.xml 配置文件,将旧版本的配置文件复制到新版本中,并根据新版本的要求进行必要的修改和更新

· 将 MySQL 的 JDBC 驱动放到 Hive 的 lib 目录下

 

● 配置 Spark

· 解压 Spark 安装包

· 配置 spark-env.sh 和 spark-defaults.conf 文件,将旧版本的配置文件复制到新版本中,并根据新版本的要求进行必要的修改和更新

· 将 Spark 的 jar 包上传到 HDFS 的特定目录下

 

● Hive 元数据升级

· 如果 Hive 版本有变更,可能需要使用 schematool 工具来升级 Hive 的元数据存储

 

● 启动服务

· 启动 Hadoop 集群和 MySQL 服务

· 启动 Hive 服务,包括 Metastore 和 HiveServer2

 

● 重新配置集成

· 根据新版本的要求重新配置 Spark 与 Hive 的集成,包括更新 hive-site.xml 和 spark-defaults.conf 文件

 

● 测试验证

· 启动 Hadoop、Hive 和 Spark 服务,执行测试查询以验证升级是否成功

 

在上述流程中,我们能够明显看出升级流程的繁琐。同时,大数据组件部署之间存在一定差异,例如:hbase 与其他组件不同,需要备份 zookeeper。这意味着在部署时,我们首先要将各个组件间升级的差异点和升级方案进行总结。

 

鉴于 Hadoop 本身的复杂性,运维人员在进行升级操作时,需要确认升级方案有无遗漏之处,一旦出现步骤遗漏,便会致使升级失败,严重情况下还可能造成数据丢失。

 

EasyMR 接管大数据组件升级

 

考虑到上述传统 Hadoop 升级所产生的复杂状况,我们决定把这种复杂性交由平台来处理,由平台接管升级过程中不同组件的差异性操作以及配置文件备份等相关操作,将简单的操作逻辑呈现给用户。

 

接下来,我们将从 Hive、HBase 和 Spark 组件的升级方面,来介绍 EasyMR 是如何接管大数据组件的升级流程的。

 

Hadoop 部署

在主机模式下部署 Hadoop 时,我们需要下载 Hadoop 的安装包,并依照步骤逐步进行操作。然而,在 EasyMR 上,我们仅需按照打包文档把打包好的产品包上传至 EasyMR 平台,即可实现一键部署。

/storage/18/article_pic/20241010/17285297116707452fa6d78.jpg

 

选择需要部署的 Hadoop 服务。

/storage/18/article_pic/20241010/17285297116707452fbca61.jpg

 

先分配服务需要部署的节点,随后执行部署,等待一段时间,若没有问题,便完成了 Hadoop 组件的部署工作。

 

Hadoop 的升级也仅需按照上述流程操作即可,EasyMR 会首先自动停止并卸载旧服务,并且备份旧的配置文件。在上述流程顺利通过后,再进行新版本的部署。

/storage/18/article_pic/20241010/17285297126707453014711.jpg

 

Hive 升级

上面我们已回顾了 Hadoop 组件的部署方式,接下来正式介绍 Hive 组件从 3.1.2 版本升级到 3.2.2 版本的具体步骤。

/storage/18/article_pic/20241010/17285297126707453034bbc.jpg

 

在 Hive 的升级过程中,需要先利用 mysqldump 工具对 MySQL 数据库进行备份,只有当备份成功后,方可进行后续的升级操作。

/storage/18/article_pic/20241010/17285297126707453056df4.jpg

 

升级流程将按照 Hadoop 升级逻辑分配服务节点进行部署。

/storage/18/article_pic/20241010/1728529712670745306e32e.jpg

 

HBase 升级

HBase 升级和 Hive 升级存在差异。Hive 升级首先得备份数据库,HBase 却不用,只需操作人员在部署时确认 HBase 的兼容性问题就行。

/storage/18/article_pic/20241010/17285297126707453089340.jpg

 

后续同样按照升级流程,勾选产品包部署服务,分配服务部署节点即可。

 

Spark 升级

Spark 升级时需要留意的是,有无正在运行的任务。在 Spark 升级前,会获取 yarn_resourcemanager 上运行中的任务状态,若存在,会给出提示。然后由操作人员依据当前状况决定是否强制升级。

/storage/18/article_pic/20241010/172852971267074530a257b.jpg

 

平台管控备份流程

上面介绍了用户层面能感知到的不同服务升级的差异,下面来讲一讲在程序后台我们开展的那些操作。

· 每次升级回滚,后台会自动将 conf 配置文件备份,防止配置丢失

/storage/18/article_pic/20241010/172852971267074530d0e7c.jpg

· 在 HBase 升级流程中,会先备份 zookeeper 的服务数据

/storage/18/article_pic/20241010/172852971267074530eb642.jpg

· 然后通过 grpc 服务调用 hbase_bak 备份脚本,对 Hadoop 的服务数据进行备份

/storage/18/article_pic/20241010/1728529713670745311a6d9.jpg

 

经过上述操作,我们可以很轻松地在 EasyMR 上完成大数据组件的升级和回滚操作,其余服务也能通过类似步骤操作完成。

 

总结

 

在 AI 蓬勃发展的时代,数据已然成为 AI 应用中至关重要的一个环节。EasyMR 作为国产的大数据引擎,将会在大数据领域展开更为深入的探索,致力于简化大数据工具的操作难度,提高运维人员的工作效率。

 

 

《行业指标体系白皮书》下载地址:https://www.dtstack.com/resources/1057/?src=bbs

《数据治理行业实践白皮书》下载地址:https://www.dtstack.com/resources/1001/?src=bbs

《数栈V6.0产品白皮书》下载地址:https://www.dtstack.com/resources/1004/?src=bbs

想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=bbs

同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」,交流最新开源技术信息,群号码:30537511,项目地址:https://github.com/DTStack

 

如果您发现该资源为电子书等存在侵权的资源或对该资源描述不正确等,可点击“私信”按钮向作者进行反馈;如作者无回复可进行平台仲裁,我们会在第一时间进行处理!

评价 0 条
FontEndL2
粉丝 0 资源 3 + 关注 私信
最近热门资源
分享如何统信UOS系统在屏蔽mysql显性的用户名称以及密码  613
分享免费开源高速下载器  577
分享如何在银河麒麟高级服务器操作系统V10SP3中需要启用内核审计功能。  572
通过shell脚本在统信UOS/麒麟系统中安装nginx  504
分享如何查看网卡中断的数量  422
分享查询网卡所在PCI插槽链路能力及当前链路状态  420
麒麟系统进行内存清理  413
统信UOS常见问题小总结  411
麒麟系统资源下载合集(适配各类cpu)  409
winrar绿色无广告版分享  393
最近下载排行榜
分享如何统信UOS系统在屏蔽mysql显性的用户名称以及密码 0
分享免费开源高速下载器 0
分享如何在银河麒麟高级服务器操作系统V10SP3中需要启用内核审计功能。 0
通过shell脚本在统信UOS/麒麟系统中安装nginx 0
分享如何查看网卡中断的数量 0
分享查询网卡所在PCI插槽链路能力及当前链路状态 0
麒麟系统进行内存清理 0
统信UOS常见问题小总结 0
麒麟系统资源下载合集(适配各类cpu) 0
winrar绿色无广告版分享 0
作者收入月榜
1

prtyaa 收益395.97元

2

zlj141319 收益228.47元

3

IT-feng 收益214.92元

4

1843880570 收益214.2元

5

风晓 收益208.24元

6

777 收益173.02元

7

哆啦漫漫喵 收益131.6元

8

Fhawking 收益106.6元

9

信创来了 收益105.97元

10

克里斯蒂亚诺诺 收益91.08元

请使用微信扫码

加入交流群

请使用微信扫一扫!