从零开始的 dbt 入门教程 (dbt-core 基础篇)一


风晓
风晓 2024-01-01 06:44:25 63715 赞同 0 反对 0
分类: 资源
本篇主要阐述 dbt 一些基本概念,教会你如何配置 dbt 连接远端数据库,并运行你的第一个数据模型,那么本文开始。

一、一些数据分析可能需要知晓的前置概念

1.1 什么是 dbt?

DBT(Data Build Tools)是一种数据转换工作流工具,作为数据分析师,我们需要将原始的数据进行各类加工组合来应对更为复杂的数据分析需求。准确来说,dbt 还是来写 sql 做各种数据查询,你可能会想,那我自己写 sql 不就完事了,还用啥 dbt。事实上,由于数据库种类繁多,sql 会存在兼容问题;其次,数据转换会存在数据依赖,比如底层原始数据层层转变为业务数据,你可能需要自己来维护这个依赖关系,其实仔细一想,你就会发现自己做会非常麻烦。

我们可以把 DBT 想象成一个厨师,而原始数据就像是食材。厨师(DBT)的工作就是把食材(原始数据)加工成好吃的菜(有用的数据模型)。这个过程就像是烹饪一样,需要按照一定的顺序和步骤来操作。

DBT 的工作流程就像是烹饪的步骤,我们只需要告诉 DBT 想做什么菜(即你想要的数据模型是什么样的,当然 sql 肯定得自己写),然后,DBT 会按照你的指示,一步步地处理食材(即处理原始数据),最后做出你想要的菜肴(即生成你需要的数据模型)。

其实说到这,你就能明白 dbt 能让我们更聚焦在我们想要什么数据,定义怎样的数据模型,其余的工作流全权交给 dbt 即可,这就是 dbt 的作用。

1.2 dbt core 与 dbt cloud 的区别

我们在 dbt 文档开头会留意到两个比较重要的名词,dbt core 和 dbt cloud,新手可能已经不知道该从哪个入手了,这里先解释下区别:

  • dbt core:dbt Core 是 dbt 的开源部分,它提供了数据建模、转换和管理的核心功能。使用 dbt Core,你可以定义和运行数据转换模型,生成 SQL 查询,并将数据写入目标数据仓库(如BigQuery、Snowflake等)。总而言之,你接下来要使用的 dbt 命令都是基于 dbt core,所以这个必须安装(后面细说)。
  • dbt Cloud: dbt Cloud 是 dbt 的云服务,构建在 dbt Core 的基础之上。它提供了托管服务,CI/CD 部署以及图形化的用户界面,能让你直接在平台运行 dbt 模型而无需自己设置和搭建基础设施,关于 dbt cloud 我后续单独出一篇文章。

总而言之,就是 saas 付费服务和开源本地化自行搭建的区别,那么本文自然是从 dbt core 的视角出发了。

1.3 什么是 dbt adapters?

除了 dbt core,第二个重要的概念是 dbt adapters,也就是 dbt 适配器,而且我们要做数据处理一定是安装 dbt core + 某个数据库所对应的适配器。

大家都知道不同的数据库在 SQL 查询上都会有些许差异,要记住所有类型的特定语法成本高但收益低,适配器正好帮我们做了这件事,适配器的作用之一是提供一种标准化的接口,让你可以使用相同的 SQL 语法来与不同的底层数据平台交互,而不需要关注 SQL 语句本身。

dbt 本身提供的适配器就非常多,除了官网维护的适配器之外,还有社区自行维护且受 dbt 官方认可的适配器,所以从数据平台(比如 bigQuery、Postgres)到数据库(比如 mysql)本身。
dbt 为所有的适配器都提供了独立的文档,以及配置说明,大家根据自己的数据库类型可以直接来这个文档目录搜索查看即可。

1.4 什么是 ELT 和 ETL ,它们区别在哪?

ELT 和 ETL 是两种常见的数据分析模式,它们在数据处理流程中的步骤顺序上有所不同。

  1. ETL:

    • 提取(Extract): 从源系统中提取数据。
    • 转换(Transform): 对提取的数据进行清洗(比如去除空值)、加工、转换。
    • 加载(Load): 将经过转换的数据加载到目标系统,通常是数据仓库。

    在 ETL 模式中,数据在提取后经过一系列复杂的转换操作,然后再加载到目标系统。这种模式适用于需要对数据进行多次、复杂转换的情况,比如将多个源的数据合并,进行聚合等。

  2. ELT(提取、加载、转换):

    顾名思义,在数据处理顺序上有所不同。ELT 模式中,数据首先加载到目标系统,然后在目标系统内进行转换。这种模式适用于目标系统有足够计算资源的情况,可以在目标系统中直接处理原始数据。

两者区别:

  • ETL 的优势: ETL 适用于需要在数据到达目标系统前进行复杂的数据清洗和转换的情况。它可以将清洗和转换的逻辑分离出来,确保目标系统中的数据是高质量的。
  • ELT 的优势: ELT 更适用于云数据仓库等具有强大计算能力的系统( 比如 bigQuery )。它允许直接在目标系统中处理原始数据,减少了数据传输的复杂性,适用于大规模数据处理。

1.5 Dbt ,bigQuery 与 Fivetran 的作用

理解 ELT(Extract, Load, Transform)和 ETL(Extract, Transform, Load)的概念有助于更好地理解这三个工具在数据处理和分析中的角色。

  1. Fivetran:
    • ELT角色: Fivetran 主要负责从各种数据源提取(Extract)数据,并将这些数据加载(Load)到目标数据仓库,如 BigQuery。
    • 作用: Fivetran 简化了数据提取和加载的过程,使数据准备的阶段更加快速和无缝,除此之外,Fivetran 还会做部分数据预处理工作,大致能力:
      1. 数据格式转换: Fivetran 可以处理来自不同数据源的数据,并将其转换为适合目标数据仓库的格式。这可能涉及日期格式、数字格式等的调整。
      2. Schema映射: Fivetran 会根据目标数据仓库的结构映射,将数据源的表和字段映射到目标仓库中的对应结构。
      3. 增量同步: Fivetran 通常支持增量同步,只同步源数据中发生变化的部分,以减少数据传输的成本。
      4. 错误处理: 处理在数据加载过程中可能出现的错误,确保数据的完整性。
      5. 性能优化: 优化数据加载的性能,以确保数据能够及时可用。
  2. BigQuery:
    • ELT角色: BigQuery 在 ELT 流程中扮演 Load 阶段的角色。它是一个云数据仓库,负责存储和处理加载进来的原始数据。
    • 作用: BigQuery 提供强大的分布式查询引擎,允许用户在原始数据上执行复杂的 SQL 查询,进行初步的数据分析。
  3. dbt:
    • ELT和ETL角色: dbt 既可以在 ELT 模式下使用,也可以在 ETL 模式下使用,取决于具体的架构设计。在 ELT 中,dbt 用于数据转换和建模,通常在加载后的原始数据上执行。在 ETL 中,dbt 可以与其他 ETL 工具配合使用,用于定义和执行更复杂的数据转换逻辑。
    • 作用: dbt 的主要作用是定义和执行数据模型,提供了一种可维护、可测试的方法来构建和管理分析模型。

整体流程:

  1. ELT流程:
    • Extract(Fivetran): 从各种数据源提取数据。
    • Load(Fivetran和BigQuery): Fivetran 将数据加载到 BigQuery 中。
    • Transform(dbt): 使用 dbt 在 BigQuery 中创建和维护分析模型。
  2. ETL流程:
    • Extract(Fivetran): 从各种数据源提取数据。
    • Transform(dbt等工具): 使用 dbt 或其他 ETL 工具定义和执行数据转换逻辑。
    • Load(BigQuery): 将转换后的数据加载到 BigQuery 或其他数据存储中。

这种结合 ELT 和 ETL 的方式,利用了 Fivetran 的强大数据加载能力,同时通过 dbt 提供的数据建模工具,实现了灵活而可维护的数据处理和分析流程。

1.6 dbt 负责的数据转换,而 Fivetran 也能做数据转换,那为什么还需要dbt?

  1. Fivetran: Fivetran 主要专注于数据集成,即将数据从不同的源头传输到目标数据仓库。它强调的是数据的可靠、高效的移动。虽然 Fivetran 提供了一些基本的预处理功能,但它并不是一个专门用于复杂数据转换和业务逻辑的工具。它的目标是提供一个易于使用的平台,使得数据工程师可以快速地设置和管理数据流。
  2. dbt: dbt(data build tool)则专注于数据转换和建模。它在数据仓库中执行转换和汇总,以便为分析提供更具可读性和易用性的数据结构。dbt 允许分析师定义业务逻辑、创建衍生字段、执行聚合等操作,将原始的仓库数据转化为更容易理解和使用的形式。dbt 的强项在于支持分析人员更好地理解和使用数据,而不仅仅是数据的传输和存储。

综合考虑,Fivetran 和 dbt 可以协同工作。Fivetran 负责将数据从源头搬移到数据仓库,而 dbt 则负责在数据仓库中进行进一步的处理和建模,以便更轻松地进行复杂的查询和分析。简单理解,Fivetran 只提供了基础的数据清洗和转换,而 dbt 提供更专业更强大更自由的数据转换。

二、 dbt 环境准备(这里以 Python 为例)

2.1 Python 版本注意

与 npm 需要依赖 node 一样,pip 命令也需要安装 Python,关于版本这里推荐安装 3.8 3.9 即可,不要安装 3.10。我在安装了 Python 3.10 后出现了安装 mysql 适配器和 core 包时,一直只能安装 0.19.2 的情况,而 core 最新的版本都到了1.1.6,导致我一直陷入了包版本是对的,但是 core 与 mysql 适配器依赖包版本错误需要解决版本冲突的怪圈中,这点切记。

2.2 安装 dbt core

上文已经提到 dbt core 属于 dbt 的开源核心,我们后续使用的命令都由这个包提供。安装 dbt core 的方式有很多,官方支持 pip、docker、homebrew 等等。

上文我们已经安装了 Python ,所以我们在终端执行如下命令即可:

pip install dbt-core

dbt 默认全局安装,所以即便你在某个项目路径下,它还是会基于全局安装,在安装完成之后,我们能执行如下命令检查安装是否完成。

pip show dbt-core

比如我安装的就是 core 1.1.6 版本,这里就能看到安装的版本,路径等相关信息。

2.3 安装 dbt adapters

我们后续所有工作,都将基于 core 与 adapters 两个包来完成,其实准备来说,当我们执行安装某个适配器时,这个命令会默认安装与之关联的 core 包,也就是一个命令自动安装两个包,这里我们以 bigQuery 为例:

pip install dbt-bigquery

同理,安装之后可以执行命令检查安装包的版本等信息:

pip show dbt-bigquery

某些情况下,你先执行了下载适配器的命令,会默认帮你 core 包,你也许想单独再安装更高版本的 core 包,你可以通过卸载重装的形式来完成,比如:

## 先卸载
pip uninstall dbt-core
## 再安装执行版本包
pip install dbt-core==1.1.6

以上就是 dbt 两个核心的包了,我们只需要安装这两个包就能支撑接下来的所有工作,再做个总结,解释下两个包的作用:

  • dbt-core:开源的核心包,安装了这个你才能执行 dbt 命令。
  • 适配器包(dbt-bigquery):数据库平台、数据库兼容的包,帮你抹平不同数据库的命令差异,而且接下来我们链接对应的数据库,都需要提前安装对应的适配器。

如果您发现该资源为电子书等存在侵权的资源或对该资源描述不正确等,可点击“私信”按钮向作者进行反馈;如作者无回复可进行平台仲裁,我们会在第一时间进行处理!

评价 0 条
风晓L1
粉丝 1 资源 2038 + 关注 私信
最近热门资源
麒麟系统版本介绍白皮书  509
MiSans 阿拉伯语字体文件  450
解决新版本麒麟系统中微信打开白屏显示  393
麒麟系统进行系统监控,查看进程的运行时间来优化性能  326
临时关闭swap分区与永久关闭swap分区(注意必须确保系统有足够内存运行!)  217
统信桌面专业版添加字体  210
统信uos单一程序黑屏,任务栏正常显示解决办法  209
统信uos快捷键文档  181
统信系统双无线网卡设置关闭开启单一网卡  144
分享一个磁盘恢复工具,适用于多平台(包括统信)  119
最近下载排行榜
麒麟系统版本介绍白皮书 0
MiSans 阿拉伯语字体文件 0
解决新版本麒麟系统中微信打开白屏显示 0
麒麟系统进行系统监控,查看进程的运行时间来优化性能 0
临时关闭swap分区与永久关闭swap分区(注意必须确保系统有足够内存运行!) 0
统信桌面专业版添加字体 0
统信uos单一程序黑屏,任务栏正常显示解决办法 0
统信uos快捷键文档 0
统信系统双无线网卡设置关闭开启单一网卡 0
分享一个磁盘恢复工具,适用于多平台(包括统信) 0
作者收入月榜
1

prtyaa 收益399.62元

2

zlj141319 收益236.11元

3

IT-feng 收益219.61元

4

1843880570 收益214.2元

5

风晓 收益208.24元

6

哆啦漫漫喵 收益204.5元

7

777 收益173.07元

8

Fhawking 收益106.6元

9

信创来了 收益106.03元

10

克里斯蒂亚诺诺 收益91.08元

请使用微信扫码

添加我为好友,拉您入交流群!

请使用微信扫一扫!