zoukankan      html  css  js  c++  java
  • 豆瓣电影数据分析

    分析250条电影数据的类型数量分布
    # coding = utf-8
    import pandas as pd
    import numpy as np
    from matplotlib import pyplot as plt
    from matplotlib import font_manager

    my_font = font_manager.FontProperties(fname='C:/Windows/Fonts/simfang.ttf')
    df = pd.read_csv('E:/pythonob/data/movie_data/data_movie.csv')
    temp_list = df['movie_type'].str.split('/').tolist() # 读取全部类型数据
    gener_list = [i for j in temp_list for i in j] # 将全部类型数据放到一个列表内
    out_data = list(set(gener_list)) # 去重
    zero_data = pd.DataFrame(np.zeros((df.shape[0], len(out_data))), columns=out_data) # 构造全为0的数组
    # 给每个电影类型出现的位置赋值1
    for i in range(df.shape[0]):
    zero_data.loc[i, temp_list[i]] = 1

    # 统计每个分类的电影数量
    movie_count = zero_data.sum(axis=0)
    sorted_movie_count = movie_count.sort_values(ascending=False) # 排序

    # 画图
    plt.figure(figsize=(20, 8), dpi=80)
    _x = sorted_movie_count.index
    _y = sorted_movie_count.values
    plt.bar(range(len(_x)), _y)
    plt.xticks(range(len(_x)), _x, fontproperties=my_font)

    plt.show()


    效果图:

  • 相关阅读:
    iOS_03_为什么选择ios开发
    iOS_02_什么是ios开发
    iOS_01_什么是ios
    Hadoop之HDFS
    hadoop组件及其作用
    数组
    Scala基础知识(二)
    hadoop安装过程
    Scala基础知识
    建造者模式
  • 原文地址:https://www.cnblogs.com/cxxBoo/p/12531670.html
Copyright © 2011-2022 走看看