如何在杂乱无章的地址中提取小区
通过观察小区名称和层级关系的规律,进行文本匹配和近似度分析。
先把数据预处理,我们按照市、区、小区名和经纬度信息确定一个小区。所有小区数据存储在一个表plot里:小区id、市、区、小区名称、小区gps、来源source(标记出小区的来源),类型type(0表示父小区,1表示虚拟父小区,2表示子小区,3表示楼栋地址),父小区id。我们需要对原始的小区数据做预处理: 需要对原始数据做数据处理:市区的格式,整理成类似:杭州,余杭区;有些小区gps是非高德gps,需要转换为高德gps 有些小区数据只有省市街道小区名,没有具体的区域和经纬度信息,需要使用地图提示进行校正,尽量补全区域和经纬度信息 * 小区名里还会夹杂很多标点符号,干扰我们的分析,我们会首先清除掉这些标点,只对中文字符进行匹配分析。然后运用归一化算法进行匹配。
下一篇:详细通讯地址怎么填啊
多重随机标签