上海启嘟渡科技商贸有限公司
SEARCH

与我们合作

我们专注提供互联网一站式服务,助力企业品牌宣传多平台多途径导流量。
主营业务:网站建设、移动端微信小程序开发、营销推广、基础网络、品牌形象策划等

您也可通过下列途径与我们取得联系:

微 信: wxyunyingzhe

手 机: 15624122141

邮 箱:

如何在杂乱无章的地址中提取小区

更新时间:2024-12-29 04:00:41

通过观察小区名称和层级关系的规律,进行文本匹配和近似度分析。

先把数据预处理,我们按照市、区、小区名和经纬度信息确定一个小区。所有小区数据存储在一个表plot里:小区id、市、区、小区名称、小区gps、来源source(标记出小区的来源),类型type(0表示父小区,1表示虚拟父小区,2表示子小区,3表示楼栋地址),父小区id。我们需要对原始的小区数据做预处理: 需要对原始数据做数据处理:市区的格式,整理成类似:杭州,余杭区;有些小区gps是非高德gps,需要转换为高德gps 有些小区数据只有省市街道小区名,没有具体的区域和经纬度信息,需要使用地图提示进行校正,尽量补全区域和经纬度信息 * 小区名里还会夹杂很多标点符号,干扰我们的分析,我们会首先清除掉这些标点,只对中文字符进行匹配分析。然后运用归一化算法进行匹配。

多重随机标签

猜你喜欢文章

QQ客服 电话咨询