今天将爬下来的数据清洗了清洗,这些数据中存在一些重复数据,应该是北京市政官网的数据库有点问题。
清洗完我才发现,其实可以直接用navicat导入。将original_id这个字段设置为主键,直接就能将重复数据剔除。
今天还尝试爬取信件的具体内容以及完成了部分信件数据可视化的内容。