但实际应用中,各类共性问题阻碍了地名地址服务的发展,包括:
地名地址数据多源异构,融合过程繁琐
地名地址数据来源广泛,包含政府部门、地图服务提供商、企业等机构,而这些机构提供的数据往往形态名异,内容也不尽相同。因此,数据融合处理时必须经过格式转换、字段映射等一系列步骤,过程繁琐复杂,难度系数较大。
不同地区的地名地址数据具有一定的地域特色,例如地址格式、区划划分、命名规则、特色地名等都可能存在差异,且受语言表达习惯的影响比较大。
POI变化复杂
随着城市的发展和变化,地名地址也在不断的更新与演进。这就导致POI的更新和维护成为一个复杂的问题,需要及时获取最新的POI信息并进行准确更新。
用户检索条件各异,匹配困难
由于个体语言表达的差异,用户录入的地名地址检索条件存在简写、错字、漏字、英文数字大小写等各种问题,没有统一的标准,这进一步加剧了匹配的难度。
为解决上述问题,超图建设了集数据治理、管理、服务和应用于一体的新一代地理编码引擎。该平台支持多源异构数据的汇聚、清洗和标准化治理,并进行统一的存储管理,确保数据的质量与安全性。借助业务流程及信息技术创新,孵化出各类实用的地名地址应用服务。
基于《GB∕T 35639-2017 地址模型》以及《GB/T 39609-2020 地名地址地理编码规则》要求,超图制定了地名地址地理代码的构成与编码规则,包括地名地址地理代码的分类与编码流程、地名地址的规范化描述、区划式地理代码的结构与编码规则、坐标式地理代码的结构与编码规则等内容。
为满足多源异构数据的快速标准化处理需求,超图研发了地理编码数据治理工具。该工具基于超图GPA框架研发,具备多场景应用、可编排、可定制、可调度特性,并预置了二十多类地名地址治理算子,综合运营自动化、人机交互、人工等多种方式实现地址补齐、归一。
-
使用AI分词算子对地址进行分词,为后续的质检/治理/去重过程提供基础输入 数据。
-
使用数据去重算子可以很好的纠出多源异构数据在汇聚过程中产生的重复、相似的数据。
-
支持筛选出时间属性错误的地址,实现历史地名地址数据的关联处理。
-
拼音纠错检查算子:
该算子为数据纠错的算子的一种,主要可以通过拼音纠错算法找出同音不同字的错误地名地址。
超图地理编码引擎的技术演进经历了文本处理、规则匹配、机器学习及深度学习等阶段,不断提升地名地址匹配的精度,优化匹配流程并丰富质检规则。
在AI分词方面,超图地理编码引擎应用bert模型,配合高可用的地名地址元素标签进行分词,可以大大提高分词的准确性和可用性。同时,运用训练模型,极大提升了区域特色地名地址数据的匹配率。
在纠错方面,超图地理编码引擎支持拼音纠错、实体纠错、字形纠错、偏值纠错等功能。
在检索方面,超图地理编码引擎采用了luence全文检索索引结构、lucene检索算法和检索规则,支持配合全场景权重配置碰撞生产新的地名地址检索算法,并能在各种检索场景下准确、快速地命中检索结果。
在排序方面,超图地理编码引擎采用了文本相似度+地名地址相似度算法,能够完美地对检索结果进行排序,给出最优的检索解。并且支持区划检索和缓存检索等特性,可以在百万级大数据量实现多样、高效的检索。
超图地理编码引擎支持地址语义化关联管理,实现了词典与地址、地址与地址、地址与规则的关联能力。通过独立的层户数据管理模式,可以减少地名地址库的体量,并满足个性化的颗粒度管理需求,提高了地名地址数据的应用价值。
知难而进,方显勇毅。未来超图信息会砥砺奋进,强化数据汇聚整合与治理能力,深入地名地址AI模型的探究,研磨出更高效、便捷的地名地址特色应用与服务,赋能时空大数据、实景三维建设,营造良好的数据产业生态。