超图地理编码引擎:集地名地址资产管理和数据空间化于一体的强大引擎


一株野茶花
一株野茶花 2023-11-08 10:07:20 50265
分类专栏: 资讯
01
地名地址应用面临的问题与挑战

但实际应用中,各类共性问题阻碍了地名地址服务的发展,包括:

01

地名地址数据多源异构,融合过程繁琐

地名地址数据来源广泛,包含政府部门、地图服务提供商、企业等机构,而这些机构提供的数据往往形态名异,内容也不尽相同。因此,数据融合处理时必须经过格式转换、字段映射等一系列步骤,过程繁琐复杂,难度系数较大。
02
数据标准不一,地域特色明显
不同地区的地名地址数据具有一定的地域特色,例如地址格式、区划划分、命名规则、特色地名等都可能存在差异,且受语言表达习惯的影响比较大。
03

POI变化复杂

随着城市的发展和变化,地名地址也在不断的更新与演进。这就导致POI的更新和维护成为一个复杂的问题,需要及时获取最新的POI信息并进行准确更新。
04

用户检索条件各异,匹配困难

由于个体语言表达的差异,用户录入的地名地址检索条件存在简写、错字、漏字、英文数字大小写等各种问题,没有统一的标准,这进一步加剧了匹配的难度。
02
超图地名地址数据治理与服务之道
为解决上述问题,超图建设了集数据治理、管理、服务和应用于一体的新一代地理编码引擎。该平台支持多源异构数据的汇聚、清洗和标准化治理,并进行统一的存储管理,确保数据的质量与安全性。借助业务流程及信息技术创新,孵化出各类实用的地名地址应用服务。

图片

总体架构图

2.1标准规范建设
基于《GB∕T 35639-2017 地址模型》以及《GB/T 39609-2020 地名地址地理编码规则》要求,超图制定了地名地址地理代码的构成与编码规则,包括地名地址地理代码的分类与编码流程、地名地址的规范化描述、区划式地理代码的结构与编码规则、坐标式地理代码的结构与编码规则等内容。

图片

超图自定义数据标准

2.2地名地址的快速治理与融合

为满足多源异构数据的快速标准化处理需求,超图研发了地理编码数据治理工具。该工具基于超图GPA框架研发,具备多场景应用、可编排、可定制、可调度特性,并预置了二十多类地名地址治理算子,综合运营自动化、人机交互、人工等多种方式实现地址补齐、归一。

图片

数据治理流程

图片

数据治理GPA算子自动化流程

典型的数据治理算子包括:
  • AI分词算子:
    使用AI分词算子对地址进行分词,为后续的质检/治理/去重过程提供基础输入  数据。

图片

AI分词算子样例

  • 数据去重算子:
    使用数据去重算子可以很好的纠出多源异构数据在汇聚过程中产生的重复、相似的数据。

图片

数据去重算子样例

  • 时效检性检查算子:
    支持筛选出时间属性错误的地址,实现历史地名地址数据的关联处理。

图片

拼音纠错算子

  • 拼音纠错检查算子:

    该算子为数据纠错的算子的一种,主要可以通过拼音纠错算法找出同音不同字的错误地名地址。

2.3高效智能地名地址匹配

超图地理编码引擎的技术演进经历了文本处理、规则匹配、机器学习及深度学习等阶段,不断提升地名地址匹配的精度,优化匹配流程并丰富质检规则。

图片

地名地址匹配流程

在AI分词方面,超图地理编码引擎应用bert模型,配合高可用的地名地址元素标签进行分词,可以大大提高分词的准确性和可用性。同时,运用训练模型,极大提升了区域特色地名地址数据的匹配率。
在纠错方面,超图地理编码引擎支持拼音纠错、实体纠错、字形纠错、偏值纠错等功能。

图片

多维度纠错样例

在检索方面,超图地理编码引擎采用了luence全文检索索引结构、lucene检索算法和检索规则,支持配合全场景权重配置碰撞生产新的地名地址检索算法,并能在各种检索场景下准确、快速地命中检索结果。

在排序方面,超图地理编码引擎采用了文本相似度+地名地址相似度算法,能够完美地对检索结果进行排序,给出最优的检索解。并且支持区划检索和缓存检索等特性,可以在百万级大数据量实现多样、高效的检索。

2.4基础数据的语义化管理

超图地理编码引擎支持地址语义化关联管理,实现了词典与地址、地址与地址、地址与规则的关联能力。通过独立的层户数据管理模式,可以减少地名地址库的体量,并满足个性化的颗粒度管理需求,提高了地名地址数据的应用价值。

图片

数据管理-列表

图片

数据管理-地图

结束语
知难而进,方显勇毅。未来超图信息会砥砺奋进,强化数据汇聚整合与治理能力,深入地名地址AI模型的探究,研磨出更高效、便捷的地名地址特色应用与服务,赋能时空大数据、实景三维建设,营造良好的数据产业生态。

网站声明:如果转载,请联系本站管理员。否则一切后果自行承担。

本文链接:https://www.xckfsq.com/news/show.html?id=28165
赞同 0
评论 0 条
一株野茶花L1
粉丝 0 发表 14 + 关注 私信
上周热门
如何使用 StarRocks 管理和优化数据湖中的数据?  2935
【软件正版化】软件正版化工作要点  2854
统信UOS试玩黑神话:悟空  2811
信刻光盘安全隔离与信息交换系统  2702
镜舟科技与中启乘数科技达成战略合作,共筑数据服务新生态  1235
grub引导程序无法找到指定设备和分区  1205
点击报名 | 京东2025校招进校行程预告  162
华为全联接大会2024丨软通动力分论坛精彩议程抢先看!  160
2024海洋能源产业融合发展论坛暨博览会同期活动-海洋能源与数字化智能化论坛成功举办  157
华为纯血鸿蒙正式版9月底见!但Mate 70的内情还得接着挖...  154
本周热议
我的信创开放社区兼职赚钱历程 40
今天你签到了吗? 27
信创开放社区邀请他人注册的具体步骤如下 15
如何玩转信创开放社区—从小白进阶到专家 15
方德桌面操作系统 14
我有15积分有什么用? 13
用抖音玩法闯信创开放社区——用平台宣传企业产品服务 13
如何让你先人一步获得悬赏问题信息?(创作者必看) 12
2024中国信创产业发展大会暨中国信息科技创新与应用博览会 9
中央国家机关政府采购中心:应当将CPU、操作系统符合安全可靠测评要求纳入采购需求 8

加入交流群

请使用微信扫一扫!