- 1. 导入数据
2 缺失值处理
从上述信息可知,共有记录4803条。
其中release_data有4802条,runtime有4801条,所以缺少3条数据
缺失记录仅____3____条,采取网上搜索,补全信息。
2.1补全release_data
Release_data值为空,经过查找缺少数据为2014-06-01
2.2补全runtime
缺失记录的电影 runtime 分别为____94___min 和 ___81____min。
进行runtime补全
3.重复值处理
分析结果可知有_____4803_____个不重复的 id,可以认为没有重复数据
4.日期值处理
分析结果可知已经将release_date列转换为日期类型。
5. 筛选数据
票房、预算、受欢迎程度、评分为__0_____的数据应该去除;
评分人数过低的电影,评分不具有统计意义,筛选评分人数大于__50___的数据。
此时剩余___2961___条数据,包含__19____个字段
6 json 数据转换
genres,keywords,production_companies,production_countries,cast,crew 这6列都是json数据,需要处理为列表进行分析。
处理方法:
json 本身为字符串类型,先转换为字典列表,再将字典列表转换为,以’,'分割的字符串
7 数据备份
5.2.1电影类型:
定义一个集合,获取所有的电影类型
注意到集合中存在多余的元素:空的单引号,所以需要去除。
5.2.1.1 电影类型数量(绘制条形图)
5.2.1.2 电影类型占比(绘制饼图)
5.2.1.3 电影类型变化趋势(绘制折线图)
5.2.1.4 不同电影类型预算/利润(绘制组合图)
5.2.2 电影关键词(keywords 关键词分析,绘制词云图)
这里会提示你用pip下载安装wordcloud库,下载安装即可。
5.3 when
查看 runtime 的类型,发现是 object 类型,也就是字符串,所以,先进行数据转化:
用pandas最新版语句
5.3.1 电影时长(绘制电影时长直方图)
5.3.2 发行时间(绘制每月电影数量和单片平均票房)
5.5 who
5.5.1 分析票房分布及票房 Top10 的导演
5.5.2 分析评分分布及评分 Top10 的导演
5.6 how
5.6.1 原创 VS 改编占比(饼图)
5.6.2 原创 VS 改编预算/利润率(组合图)
5.7 how much
5.7.1 计算相关系数(票房相关系数矩阵)
5.7.2 票房影响因素散点图