辽宁省农村信用合作社(“辽宁农信”)创建于1952年。2005年7月,辽宁省农信社与沈阳、大连等77家县市合作,正式建立了辽宁省农信社联盟,截止2021年底,各项储蓄超过7000亿。作为三农政策的主力军,辽宁农信仅在2021年就向农村地区发放贷款460亿元,为4万多家农村小微企业提供贷款支持,涉农总量和增量都位居全省第一。
农信机构具有庞大的客户群体,客户种类多,服务覆盖广,必然会衍生海量数据。近年来,辽宁农信大数据运用范围与深度迅速拓展,其自身的数据元素不断涌现,众多业务渠道的数据应用呈现出“多、杂、细”的特征,这给早在2015年就上线的大数据仓储系统带来了巨大的计算与存储压力。
为应对此类需求,辽宁农信于2021年启动国产平台替代项目,并在2022年6月启动招采工作,最终选择偶数科技作为技术支持伙伴,开始新一代数据平台综合性方案的调研、论证工作。
当时,“数据仓库”与“大数据平台”对接了40多个上游交易渠道系统和40多个下游分析管理系统,数据总记录数超过500亿条,总容量超过160TB,并且以每天1.2亿条的速度在膨胀。随着时间的推移,现有的“数据仓库”与“大数据平台”也逐渐暴露出了诸多问题与局限性:
● “数据仓库”与“大数据平台”双平台开发周期长、运维投入高,各自的技术栈开发并不能很好地协调。这就导致了时间效率低,成本高,技术融合困难等一系列问题。目前还没有一个能够满足决策层、管理层和业务层对不同类型的数据应用的统一平台。
● 经营资料的来源较为分散,基层法人行社经营数据采集的实时性与精确度还需进一步提高,且数据的整体性与一致性尚不完善。
● 经营分析、运营管理数据需求种类繁多,数量庞大,变化频繁,并且在多个需求和多个数据源叠加的情形下, IT 部门已经无法有效处理。
● 从宏观上看,存在业务管理口径不一致,各部门运营管理信息存在交叉重复的现象。
基于以上这些问题,偶数协助农信展开了有针对性的研究与论证,最终得出结论:将已有的“数据仓库”与“大数据平台”整合为一个平台,即湖仓一体平台。这是一条高效、前瞻的技术路线,是辽宁农信的新一代数据平台的首选架构。
在此基础上,偶数科技结合辽宁农信信息化建设现状和数据管理需求,规划了新一代湖仓一体平台建设的重点工作。
1. 构建平台,搭建采用分布式架构的湖仓一体平台集群,将现有大数据平台的数据迁移至新平台中,提高实时查询、数据关联加工的效率和非结构化数据存储需求;
2. 优化模型,针对大数据创建数据模型,提高数据模型的可用性和数据隔离能力;
3. 提升效率,提高数据加工及下发能力,将每日的数据按法人机构切分,满足各法人数据下发的需求;
4. 扩展容量,扩充大数据平台容量,存储2年以上的每日切片数据和全部历史数据;
5. 资源隔离,实现多租户管理模式,确保大数据平台中各加工流程互不影响,提高大数据平台的可用性;
偶数科技提供的规划方案,具备了数据基础底座应有的云原生、数据一致、无冗余、超高并发、多源异构数据支持、实时等六大特性要求。以此为基准,开展了平台的方案设计和实施,推动大数据供给侧能力持续优化。
湖仓一体平台整体设计采用存储与计算分离架构,从而实现既支持基于数据湖的高性价比硬件存储及存储引擎,又支持数据仓库的多功能高性能分析引擎。
实现对海量原始数据(结构化、非结构化、流式数据)以及数据仓库的汇总数据(对原始数据进行治理和分析后的数据)统一存储、分析、管理,集群具有在线扩容到上万节点的能力。
●数据采集方面,通过偶数 Wasp 工具提高数据采集能力,同时推动上游数据改造。
●任务调度方面,将原数据仓库 USE 调度工具升级为偶数 Flow 调度工具,为全体系调度能力加码。
●数据治理方面,复用数据治理成果,使用偶数平台工具推动湖仓一体数据并行治理。
●数据处理方面,引入 OushuDB 数据库构建大数据湖仓一体平台并作为技术底座。
●历史数据存储方面,迁入数据仓库和数据湖全量历史数据,通过可插拔存储提升全量数据存储能力。
●数据共享方面,使用 Lava 提升数据共享能力,实现接口级、文件级数据下发共享统一通道。
●租户管理方面,推动试点数据域(用户)转租户管理,实现不同租户采集、存储、治理、分析和共享实施的资源隔离。
●应用方面,通过 OushuDB 实时数据计算推动风控规则准实时化和审计前置,实现准实时数据大屏等应用场景。
在原平台的数据架构中,数据源通过ETL服务器分别进入到数据仓库和大数据平台,在数据仓库中,数据加载到缓冲层(O)后在明细层(D)、整合层(M)、集市层(G)逐层进行加工,在每个数据分层完成加工后都会通过同库直连或者FEX/FTP向大数据平台进行同步,最终以大数据平为主提供数据应用。
湖仓分体各司其职,在逻辑上为统一数据应用提供支撑,但是中间的数据流向是非常复杂和冗余的,以资产负债这个主题的数据为例,其可能来自于数据仓库的不同分层,在大数据平台中,存放了资产负债相关的明细层、整合层和集市层,数据处理时效难以保障,同时数据冗余也加大了现有平台管理的难度。
原平台架构
通过搭建湖仓一体平台,新的数据架构则变得很简洁。数据源通过前置文件缓冲服务器后,加载到湖仓一体平台缓冲层(O)后在明细层(D)、整合层(M)、集市层(G)、集市计算层(GA)逐层进行加工,最终由湖仓一体平台统一对外提供数据应用,既提升了数据处理时效,也减少了数据冗余,避免数据孤岛。
新平台数据架构
2022年8月,湖仓一体平台项目正式启动,偶数按照如下几个重点步骤进行整体实施:调研现状、整合资料、搭建环境、技术验证、实施迁移、数据核对、性能优化。
实施步骤
通过调研和资料整合,我们确定了原平台报表应用,ETL(数据抽取、转换和加载)作业,接口数量,DDL(数据定义语言)的实际情况和工作边界。通过搭建 OushuDB 及相关组件(如数据同步和调度工具)实现模拟环境,在大规模迁移之前,我们进行了重点技术问题验证,包括原有大数据平台和 OushuDB 的语法差异分析,将接口数据文件加载、加工处理生成应用数据等。
在关键的迁移工作中,偶数工程师先后完成了源系统数据采集文件加载入库、大数据平台模型迁移、作业迁移、新建作业调度、应用系统对接。针对脚本迁移内容,进行了单元测试,O、F、D、M、G层及集市托管计算脚本,以及大数据平台脚本测试优化。
2022年11月,辽宁农信新一代湖仓一体平台开始试运行,2023年5月,农信正式完成新平台的生产切换。
湖仓一体平台归集了数据仓库和大数据平台历史数据,承载1.5万余个表实体、500亿条数据,总量超过150TB并减少了22TB数据冗余。通过虚拟计算与存储集群,全天候为省联社40多个系统、1690个基层行社下辖的业务人员及用户提供数据应用支撑。
使用OushuDB并优化4691个存算程序后,标准联机查询达到毫秒级响应,比数据仓库查询速度提升2倍以上,业务日结批量时效压缩3倍以上,湖仓一体平台将原来的“数仓+大数据平台”日主批量的22小时,压缩到8小时内。
湖仓一体平台归集并覆盖存款、贷款、网银3个渠道的38个业务指标,实现了从“T+1”到“T+0”的应用方式突破。
(一)以经营战略为基础,夯实数据资产
湖仓一体数据平台是辽宁农信数字能力建设的基础技术底座,后续伴随业务开展将不遗余力地收集辽宁农信自有大数据资产。同时将优化行为数据的采集,为客户画像和风险识别建模提供数据。将对接机构部门和场景扩充场景数据,建立场景化、小而美的主题数据。
大数据的智能化应用赋予银行业务新的“生命”。辽宁农信将加强企业级业务规则及算法管理平台,推动对模型应用、模型有效性、模型管理进行统一规范,建立数据模型算法的管理机制,确保模型算法在自主可控的范围内发挥效能。
大数据的资产化和业务化,赋予大数据“灵魂”。在各业务条线传统应用方式的基础上,加快推动各条线工作中探索数字化运营模式,形成数据和运营结合的闭环。