『 TechTalk 』GaussDB(DWS)临时表系列 - 本地临时表


风晓
风晓 2024-01-13 08:31:19 54014 赞同 0 反对 0
分类: 资源 标签: 国产数据库
『 TechTalk 』GaussDB(DWS)临时表系列 - 本地临时表

图片

GaussDB(DWS) 在8.2.1版本之前支持本地临时表。从8.2.1版本后支持了两种新的临时表形式:Volatile临时表、全局临时表。本文先介绍GaussDB(DWS)的本地临时表功能。

本地临时表特点:表定义和数据都是会话相关,其他会话看不到本会话创建的本地临时表。元数据会持久化到系统表,集群节点异常出错可以支持RETRY。

图片

CREATE [LOCAL] { TEMPORARY | TEMP } TABLE [ IF NOT EXISTS ] table_name
    ({ column_name data_type [ compress_mode ] [ COLLATE collation ] [ column_constraint [ ... ] ]
        | table_constraint
        | LIKE source_table [ like_option [...] ] }
        [, ... ])
    [ WITH ( {storage_parameter = value} [, ... ] ) ]
    [ ON COMMIT { PRESERVE ROWS | DELETE ROWS } ]

建表时需要指定TEMP或者TEMPORARY,表示创建本地临时表。

ON COMMIT

ON COMMIT { PRESERVE ROWS | DELETE ROWS }

ON COMMIT选项决定在事务中执行创建临时表操作,当事务提交时,此临时表的后续操作。

PRESERVE ROWS(缺省值)

提交时不对临时表做任何操作,临时表及其表数据保持不变。建议使用此种类型。

DELETE ROWS

提交时删除临时表中数据。

 

其他部分与普通表相同。

gaussdb=# create temp table tmp1(a int,b int);
NOTICE:  The 'DISTRIBUTE BY' clause is not specified. Using round-robin as the distribution mode by default.
HINT:  Please use 'DISTRIBUTE BY' clause to specify suitable data distribution column.
CREATE TABLE

临时表可以与非临时表同名。如果同名,优先级临时表高于非临时表。

gaussdb=# create temp table tmp1(a int,b int);
NOTICE:  The 'DISTRIBUTE BY' clause is not specified. Using round-robin as the distribution mode by default.
HINT:  Please use 'DISTRIBUTE BY' clause to specify suitable data distribution column.
CREATE TABLE
gaussdb=# insert into tmp1 values(1,1);
INSERT 0 1
gaussdb=# create table tmp1(a int,b int);
NOTICE:  The 'DISTRIBUTE BY' clause is not specified. Using round-robin as the distribution mode by default.
HINT:  Please use 'DISTRIBUTE BY' clause to specify suitable data distribution column.
CREATE TABLE
gaussdb=# select *from tmp1;
 a | b
---+---
 1 | 1
(1 row)

gaussdb=# select *from public.tmp1;
 a | b
---+---
(0 rows)

视图:基于临时表创建的视图是临时视图。

postgres=# create view tmp_v1 as select *from tmp1;
NOTICE:  view "tmp_v1" will be a temporary view
CREATE VIEW

图片

3.1  复杂业务逻辑使用本地临时表拆分

如果业务SQL语句过于复杂,可以使用本地临时表将执行的中间结果缓存下来,从而将复杂业务逻辑拆分成多个较简单语句。简单语句的统计信息更为准备,且拆分后的业务更易于维护。
拆分常见的场景:

  • 作业中多个SQL有同样的子查询,并且子查询数据量较大。

  • 子查询cost计算不准。

  • 函数(如substr、to_number)导致大数据量子查询选择度计算不准。

  • 多DN环境下对大表做broadcast的子查询。

3.2  支持CN节点出现异常

GaussDB(DWS)是一款分布式架构的数据库。有多个Coordinator(CN),关系对等。客户端可以连接任意一个CN。CN上存有表的元数据信息。在执行DDL时,会在所有DN上进行元数据的同步,保证数据一致性。如果某个CN出现异常,会导致创建表、删除表等操作执行失败,进而导致整个作业执行失败。

在这种场景,可以使用本地临时表。本地临时表只在当前会话可见。执行本地临时表的创建、ALTER、删除等操作时,只会在当前CN进行元数据的修改。这样可以不受其他CN节点异常的影响,保证业务使用连续性。

图片

临时表在元数据上与普通表的区别是临时表由于在其他会话不可见,所以会建在一个只属于当前会话的schema。本会话第一次创建临时表时会同时建立这个会话的schema。每一个会话的临时schema都不同。

会话1:

gaussdb=# create temp table tmp1(a int,b int);
NOTICE:  The 'DISTRIBUTE BY' clause is not specified. Using round-robin as the distribution mode by default.
HINT:  Please use 'DISTRIBUTE BY' clause to specify suitable data distribution column.
CREATE TABLE
gaussdb=# \d+ tmp1
       Table "pg_temp_coordinator1_65_3_140257888512760.tmp1"
 Column |  Type   | Modifiers | Storage | Stats target | Description
--------+---------+-----------+---------+--------------+-------------
 a      | integer |           | plain   |              |
 b      | integer |           | plain   |              |
Has OIDs: no
Distribute By: ROUND ROBIN
Location Nodes: ALL DATANODES
Options: orientation=row, compression=no:

会话2, 查询不到tmp1表。

gaussdb=# select * from tmp1;
ERROR:  relation "tmp1" does not exist
LINE 1: select * from tmp1;
                      ^

临时schema的命名规则:pg_temp_Coordinator名_timelineID_全局自增ID_threadID

Coordinator名:CN名称,隔离不同CN创建的schema。

timelineID:在节点重启后会增加,用于判断此schema是否已经无效。

全局自增ID:单个CN上自增ID。同一个CN不用会话自增ID不同。

元数据:本地临时表的relpersistence标识是’t’。

gaussdb=# select relname, relpersistence from pg_class where relname = 'tmp1';
 relname | relpersistence
---------+----------------
 tmp1    | t

4.1  数据清理

  1. 会话正常退出
    会话正常退出时,本地临时表的表定义和数据都会被删除。无法再访问原来的数据。

  2. 会话异常退出或者当前CN或者某个DN节点异常时。
    出现异常时,节点的元数据和数据不会被立即删除。GaussDB(DWS)依赖组件gs_clean工具进行本地临时表的自动定期清理。保证数据在一段周期后得到清理,防止空间持续膨胀。

4.2  CN Retry

CN Retry功能开启时会为临时表数据记录日志,为保证数据一致性,在使用临时表时不建议切换CN Retry开关状态,保持使用临时表的会话中CN Retry开关始终处于打开状态或者关闭状态。
在打开CN Retry时,DN节点异常重启,临时表的数据可以保证不丢失。DN重启后,仍可以访问之前的会话。
如果希望临时表不记录日志:

set max_query_retry_times = 0;

此时节点异常后会话不再可用。需要退出会话,重跑业务。如果业务中有重试机制,可以采取此种方式。

 

图片

 

  1. 如果上层应用,使用了连接池机制连接GaussDB(DWS),在使用临时表时,强烈建议将连接归还连接池之前,将临时表主动删除,避免造成连接未断开导致的数据异常。或者使用命令DISCARD TEMP清理会话的临时表信息。

  2. 扩容时忽略本地临时表。

  3. 不支持gs_dump 本地临时表。

如果您发现该资源为电子书等存在侵权的资源或对该资源描述不正确等,可点击“私信”按钮向作者进行反馈;如作者无回复可进行平台仲裁,我们会在第一时间进行处理!

评价 0 条
风晓L1
粉丝 1 资源 2038 + 关注 私信
最近热门资源
桌面通用(全架构)【在双系统环境下隐藏Windows启动菜单】操作指南  1554
银河麒麟桌面操作系统V10(SP1)2203-如何进行远程桌面互访?  1533
银河麒麟桌面操作系统【保留数据盘重装系统】  1486
麒麟系统各种原因开不了机解决(合集)  1212
统信桌面专业版【手动分区安装UOS系统】介绍  634
银河麒麟桌面操作系统 V10-SP1 双系统安装 efi 分区问题  596
统信系统安装(合集)  563
桌面通用(全架构)【rpm包转成deb包】操作方法  488
统启动异常几种类型(initramfs 模式)  466
最近下载排行榜
桌面通用(全架构)【在双系统环境下隐藏Windows启动菜单】操作指南 0
银河麒麟桌面操作系统V10(SP1)2203-如何进行远程桌面互访? 0
银河麒麟桌面操作系统【保留数据盘重装系统】 0
麒麟系统各种原因开不了机解决(合集) 0
统信桌面专业版【手动分区安装UOS系统】介绍 0
银河麒麟桌面操作系统 V10-SP1 双系统安装 efi 分区问题 0
统信系统安装(合集) 0
桌面通用(全架构)【rpm包转成deb包】操作方法 0
统启动异常几种类型(initramfs 模式) 0
作者收入月榜
1

prtyaa 收益393.72元

2

zlj141319 收益220.97元

3

1843880570 收益214.2元

4

IT-feng 收益213.03元

5

风晓 收益208.24元

6

777 收益172.82元

7

Fhawking 收益106.6元

8

信创来了 收益105.89元

9

克里斯蒂亚诺诺 收益91.08元

10

技术-小陈 收益79.5元

请使用微信扫码

加入交流群

请使用微信扫一扫!