豆瓣电影数据分析

分析250条电影数据的类型数量分布
# coding = utf-8
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
from matplotlib import font_manager

my_font = font_manager.FontProperties(fname='C:/Windows/Fonts/simfang.ttf')
df = pd.read_csv('E:/pythonob/data/movie_data/data_movie.csv')
temp_list = df['movie_type'].str.split('/').tolist()  # 读取全部类型数据
gener_list = [i for j in temp_list for i in j]  # 将全部类型数据放到一个列表内
out_data = list(set(gener_list))  # 去重
zero_data = pd.DataFrame(np.zeros((df.shape[0], len(out_data))), columns=out_data)  # 构造全为0的数组
# 给每个电影类型出现的位置赋值1
for i in range(df.shape[0]):
    zero_data.loc[i, temp_list[i]] = 1

# 统计每个分类的电影数量
movie_count = zero_data.sum(axis=0)
sorted_movie_count = movie_count.sort_values(ascending=False)  # 排序

# 画图
plt.figure(figsize=(20, 8), dpi=80)
_x = sorted_movie_count.index
_y = sorted_movie_count.values
plt.bar(range(len(_x)), _y)
plt.xticks(range(len(_x)), _x, fontproperties=my_font)

plt.show()


效果图：

查看全文

相关阅读:
tomcat9.x 集群升级至 tomcat 10.x 发现的问题....
java8 快速实现List转map 、分组、过滤等操作
 java高亮显示关键字不区分大小写(但不改变原文字母的大小写)---关键字分词功能(自写算法：关键字之间有子集的情况和关键字首尾拼接)
Java Array、List、Set互相转化
 java 查找list中重复数据
 Java Set对象去重
 Java--如何高效向List中存放不重复的数据（附带时间测试）
java list的交集,差集,并集
 Java中枚举实现单例模式
 使用jsoup选择器来查找元素

原文地址：https://www.cnblogs.com/cxxBoo/p/12531670.html