(一)
(二)
如图所示,Kafka Connect主要由source connector和sink connector组成。事实上,几乎大部分的ETL框架都是由这两大类逻辑组件组成的,如Apache Flume、Kettle等。sourceconnector 负责把输入数据从外部系统中导入到 Kaka 中,而 sik connector 则负责把输出数据导出到其他外部系统。
根据KafkaConnect官网的介绍,目前其主要的设计特点如下。
通用性:依托底层的Kafka核心系统封装了connector接口,方便开发、部署和管理
兼具分布式(distributed)和单体式(standalone)两种模式:既可以以 standalone 单进程的方式运行,也可以扩展到多台机器成为分布式ETL系统。
REST接口:提供常见的RESTAPI方便管理和操作,只适用于分布式模式自动位移管理:connector
自动管理位移,无须开发人员干预,降低开发成本
集成性:方便与流/批处理系统对接。
(三)什么是流处理
从本质上说,流处理是一种处理模式或一类数据处理引擎,旨在处理无限多的数据集合从广义上说,它既包括完全的流处理,也包括模拟流处理的微批次实现 (micro-batch)Spark Streaming 的设计理念就是这种 micro-batch 化。值得注意的是,流处理经常与以下的词混淆。
(四)
(五)
KafkaStreams是一个轻量级的客户端处理API库。它非常适用于输入/输出数据均来自Kafka集群的流处理场景。如果配合用户自定义的connector它也支持连接上下游外部系统的流处理应用或微服务的实现。
(六)
(七)
如果您发现该资源为电子书等存在侵权的资源或对该资源描述不正确等,可点击“私信”按钮向作者进行反馈;如作者无回复可进行平台仲裁,我们会在第一时间进行处理!
添加我为好友,拉您入交流群!
请使用微信扫一扫!