zoukankan      html  css  js  c++  java
  • 12.09

    1. 1.  导入数据

     

     

    2 缺失值处理

     

    从上述信息可知,共有记录4803条。

    其中release_data有4802条,runtime有4801条,所以缺少3条数据

    缺失记录仅____3____条,采取网上搜索,补全信息。

    2.1补全release_data

     

    Release_data值为空,经过查找缺少数据为2014-06-01

     

     

    2.2补全runtime

     

     

     

    缺失记录的电影 runtime 分别为____94___min 和 ___81____min。

     

    进行runtime补全

    3.重复值处理

     

    分析结果可知有_____4803_____个不重复的 id,可以认为没有重复数据

    4.日期值处理

     

     

    分析结果可知已经将release_date列转换为日期类型。

    5. 筛选数据

     

    票房、预算、受欢迎程度、评分为__0_____的数据应该去除;

    评分人数过低的电影,评分不具有统计意义,筛选评分人数大于__50___的数据。

     

    此时剩余___2961___条数据,包含__19____个字段

    6 json 数据转换

    genres,keywords,production_companies,production_countries,cast,crew 这6列都是json数据,需要处理为列表进行分析。

    处理方法:

    json 本身为字符串类型,先转换为字典列表,再将字典列表转换为,以’,'分割的字符串

     

    7 数据备份

     

     

     

    5.2.1电影类型:

    定义一个集合,获取所有的电影类型

     

    注意到集合中存在多余的元素:空的单引号,所以需要去除。

     

     

    5.2.1.1 电影类型数量(绘制条形图)

     

     

    5.2.1.2 电影类型占比(绘制饼图)

     

     

     

    5.2.1.3 电影类型变化趋势(绘制折线图)

     

     

    5.2.1.4 不同电影类型预算/利润(绘制组合图)

     


    5.2.2 电影关键词(keywords 关键词分析,绘制词云图)

     

     

    这里会提示你用pip下载安装wordcloud库,下载安装即可。

    5.3 when

    查看 runtime 的类型,发现是 object 类型,也就是字符串,所以,先进行数据转化:

     

    用pandas最新版语句

     

    5.3.1 电影时长(绘制电影时长直方图)

     

     

    5.3.2 发行时间(绘制每月电影数量和单片平均票房)

     

     

    5.5 who

    5.5.1 分析票房分布及票房 Top10 的导演

     

     

    5.5.2 分析评分分布及评分 Top10 的导演

     

     

     

    5.6 how

    5.6.1 原创 VS 改编占比(饼图)

     

    5.6.2 原创 VS 改编预算/利润率(组合图)

     

    5.7 how much

    5.7.1 计算相关系数(票房相关系数矩阵)

     

     

    5.7.2 票房影响因素散点图

     

     

     

  • 相关阅读:
    Linux下redis的安装
    python 文档
    Asp.net 高性能 Sqlite ORM 框架之 sqliteSugar
    程序整理网
    第十章:更多
    第九章:高级应用举例
    第八章:简单应用举例(2)
    第八章:简单应用举例(1)
    第七章:Mapping插件
    第六章:加载或保存JSON数据
  • 原文地址:https://www.cnblogs.com/1329197745a/p/15665100.html
Copyright © 2011-2022 走看看