zoukankan      html  css  js  c++  java
  • 数据初级分析分类(2)

      今天在昨天的基础上进一步规范了地域列的取值,以及使用高德地图的api将昨天模拟百度地图搜索请求未找到的500多条数据重新进行查询。除此之外,还看了一些关于python提取关键字的博客。

      昨天虽然找到了3500多条数据的地域和行政区划代码,但是由于未考虑到完成单位在其他省份的情况,导致某些地域值只有XX市XX区,没有前面的XX省。

      虽然后来又换用高德地图的api进行查询,但是仍有181条数据未能查找到所在地域,我认为一方面是数据集有问题,另一方面是这些单位可能已经改名。我觉得不太可能是重名单位多的原因,因为我在编写脚本时只取了结果列的第一种情况,结果不论有多少只取第一种。其次,这未找到的181条数据中,有9条数据的完成单位是人名,所以真正未将地域维度标准化的数据有172条。

      明天的任务是提取关键字和补充行业分类,如果有时间的话会尝试搜索搜索这172条数据,看看能不能手动将地域维度标准化。

  • 相关阅读:
    Python笔记初识
    visio开发者图形分类个人爱好
    亿图图示与visio结合使用
    xmind visio mindmanager edraw比较
    Pycharm安装步骤
    win32com问题
    Win32.com安装
    Pycharm安装步骤
    Phython笔记初识
    跨域问题解决方案
  • 原文地址:https://www.cnblogs.com/dream0-0/p/12489239.html
Copyright © 2011-2022 走看看