金融行业实时湖仓建设实践与思考


镜舟科技
镜舟科技 2024-08-16 09:44:12 11810
分类专栏: 资讯 标签: 国产数据库

金融行业数据平台的技术演进是一个复杂且持续发展的过程,主要经历了数据库、数据仓库、数据湖以及湖仓一体四个阶段,并在近年来随着 AI 大模型的兴起而进一步发展。

 

1. 数仓与数据湖的发展

数据仓库(数仓)是早期的数据管理架构,主要面向结构化数据的存储和分析。由于数据仓库的容量有限,在应用过程中容易产生数据孤岛。对于数据规模较为庞大的企业来说,若完全依赖于数据仓库,通常要面对不小的成本。

数据湖则在数仓的基础上发展而来,专注于非结构化数据的存储和处理,现代化的数据湖具有统一的数据存储,可以大批量地进行导入。但是,数据湖在数据分析性能、数据管理与治理方面也存在不足。

随着技术的不断更迭,数据仓库与数据湖的能力呈现明显的融合趋势,开辟出了一条湖仓一体的发展路线。湖仓一体技术结合了数据湖和数据仓库的优势,形成一种更强大、灵活且易于管理的数据管理架构,逐渐成为当代大数据平台的事实标准。

 

2. 为什么越来越多的金融企业选择湖仓架构?

回答这个问题,需要回到金融行业数据特点结合着看,这其中不乏外因(技术与政策发展)和内因(业务场景变化)相互作用影响,金融行业数据特点具体如下:

1. 数据种类多样、数据量增长迅速

随着 5G、物联网、云计算、人工智能等新技术的发展,金融机构不再局限于线下的网点或设备服务,而是通过业务流程再造实现更加实时的业务,这一变革伴随而来的就是数据种类的增长。当前,金融机构所涉及数据类型包括:

结构化数据:主要来自银行交易、保险保单;

半结构化数据:主要包括用户行为数据、日志文件数据,通常以 JSON 或 XML 格式存在;

非结构化数据:主要包括文本、图像、音频和视频等;

金融行业每天产生的数据量巨大,并且随着业务的扩展和技术的发展,数据量在迅速增长。以银行业务为例,用户的在线交易、移动支付、财富管理等都产生了大量的数据。

2. 业务场景复杂、数据时效性要求高

上述各个业务发展到一定规模时,业务交互所产生的数据不仅需要被有效存储,还需要快速清洗、处理,从而为前端实时应用提供保障,例如业务的事前预测、事中决策和事后分析等环节。复杂的业务场景,也要求着数据的管理必须适应多变的业务需求。

基于上述的数据特点,要求金融机构具备更强大、灵活的数据管理架构,而湖仓一体作为则为金融行业提供了新的选择。

 

3. 金融湖仓架构建设的关键技术

金融行业需要引入更先进的技术来获取和处理实时数据,包括引入新的数据库技术栈来实现数据的实时捕获、更新、处理和应用。

1. 数据存储技术: 可以使用分布式文件系统如 Hadoop 分布式文件系统(HDFS)来存储大规模数据集,同时,为了解决 Hadoop 在某些方面的局限性,包括 Iceberg、Hudi 和 Paimon 在内的多种数据表格式和数据管理系统也正在被更多企业选择。

2. 数据处理与查询引擎:需要支持从不同业务系统中,提取数据源并加工流转到湖仓。同时,需要高性能的查询引擎如支持 SQL 查询和数据分析,在数据湖上执行分析,提供快速的数据访问和分析效率。

以开源产品 StarRocks 为例,StarRocks 采用了开放的 lakehouse 架构,所有数据统一录入到湖中,再按需供业务端进行数仓的应用建设,湖与仓充分融合并共享一份数据,彼此互联互通,同时,该架构能兼顾成本和性能,同时在资源扩展上也能达到弹性的效果。

另外在湖仓建设过程中,数据的质量和安全是金融机构需要重点关注的。镜舟科技基于 StarRocks 开发的湖仓分析引擎,在数据安全与权限管理上提供企业级支持,包括多种安全认证、数据加密、鉴权与访问控制、审计追踪等安全保障能力,满足金融行业客户对数据安全的需求。

 

4. 湖仓与大模型

随着 AI 大模型的突飞猛进,金融行业从传统的机器学习数据挖掘转变为 AI 大模型体系,面对着越来越多的非结构化数据挑战。这要求湖仓一体架构能够支持更复杂的 AI 计算需求,如 SQL 查询、机器学习和图分析等。

StarRocks for LLM:助力智能数据处理

• 高效向量搜索:通过支持余弦和欧式距离,实现高性能的向量搜索,帮助企业在大数据中快速找到相关信息。

• 集成 Langchain:与 Langchain 无缝集成,StarRocks 作为高效向量引擎,助力企业快速实现基于检索增强生成(RAG)的应用。

• 先进算法支持:采用 HNSW 和 IVFPQ 算法,支持范围搜索和标量过滤,确保数据检索的准确性和效率。

• 卓越性价比:整体性能提升 10 倍,单机可处理百万数据集,50 个并发请求响应时间保持在 20 毫秒以内。

LLM for StarRocks:降低数据使用门槛

• 智能报表生成:通过自然语言处理(NLP)技术,自动生成 SQL 报表,结合 AI 和 SQL,显著提升开发效率。

• 降低使用门槛:结合大模型,提供类似 ChatBI 的交互式业务探查功能,使业务人员无需专业技术背景即可高效使用数据。

• 广泛兼容性:StarRocks 可以与 Vanna、DBGPT 等框架融合,进一步扩展其应用场景和功能。

StarRocks 结合自动化报表生成和智能业务探查功能,能显著降低企业开发和数据使用的门槛,提升整体运营效率。同时通过高效的数据处理能力和搜索能力,增强业务决策的速度和准确性。StarRocks 与大模型也还在探索更多碰撞和融合,帮助企业在提升性能的同时,带来显著的成本效益降低。

0815封面.png(2.78MB)

网站声明:如果转载,请联系本站管理员。否则一切后果自行承担。

本文链接:https://www.xckfsq.com/news/show.html?id=54094
赞同 2
评论 0 条
镜舟科技L1
粉丝 0 发表 6 + 关注 私信
上周热门
如何使用 StarRocks 管理和优化数据湖中的数据?  2691
【软件正版化】软件正版化工作要点  2655
统信UOS试玩黑神话:悟空  2559
信刻光盘安全隔离与信息交换系统  2247
镜舟科技与中启乘数科技达成战略合作,共筑数据服务新生态  1117
grub引导程序无法找到指定设备和分区  769
江波龙2025届校园招聘宣讲会行程大放送  28
点击报名 | 京东2025校招进校行程预告  25
海康威视2025校招|海康机器人,邀你共创工业智能化未来!  24
金山办公2024算法挑战赛 | 报名截止日期更新  22
本周热议
我的信创开放社区兼职赚钱历程 40
今天你签到了吗? 27
信创开放社区邀请他人注册的具体步骤如下 15
如何玩转信创开放社区—从小白进阶到专家 15
方德桌面操作系统 14
我有15积分有什么用? 13
用抖音玩法闯信创开放社区——用平台宣传企业产品服务 13
如何让你先人一步获得悬赏问题信息?(创作者必看) 12
2024中国信创产业发展大会暨中国信息科技创新与应用博览会 9
中央国家机关政府采购中心:应当将CPU、操作系统符合安全可靠测评要求纳入采购需求 8

加入交流群

请使用微信扫一扫!