zoukankan      html  css  js  c++  java
  • Python机器学习(九十七)Pandas 绘图

    Pandas的另一个优点是与Matplotlib的集成,可以直接绘制DataFrame和Series。

    注意:如没有安装Matplotlib,需首先安装:pip install matplotlib

    import matplotlib.pyplot as plt
    plt.rcParams.update({'font.size': 20, 'figure.figsize': (10, 8)}) # 将字体和图形设置为更大

    接下来开始绘图。

    首先画一下电影的评分和票房之间的关系,调用movies_df上的.plot()方法:

    # 加载数据
    movies_df = pd.read_csv("IMDB-Movie-Data.csv", index_col="Title")
    movies_df.columns = ['rank', 'genre', 'description', 'director', 'actors', 'year', 'runtime', 
                         'rating', 'votes', 'revenue_millions', 'metascore']
    
    # 绘图                     
    movies_df.plot(kind='scatter', x='rating', y='revenue_millions', title='Revenue (millions) vs Rating')
    
    plt.show()

    输出

    图

    如果想要绘制单个列的简单直方图,可以调用列上的plot:

    movies_df['rating'].plot(kind='hist', title='Rating')

    输出

    图

    回忆一下describe()rating列中给出的统计信息:

    movies_df['rating'].describe()

    输出

    count    1000.000000
    mean        6.723200
    std         0.945429
    min         1.900000
    25%         6.200000
    50%         6.800000
    75%         7.400000
    max         9.000000
    Name: rating, dtype: float64

    使用箱线图,我们可以可视化这些数据:

    movies_df['rating'].plot(kind="box")

    输出

    图

    图

    箱线图说明

    通过组合rating_categoryrevenue_millions,可以创建一个票房箱线图:

    movies_df.boxplot(column='revenue_millions', by='rating_category')

    输出

    图

  • 相关阅读:
    04 SecurityContextHolder与SecurityContext说明
    03 spring security执行流程分析
    02 spring security 自定义用户认证流程
    01 spring security入门篇
    第三周进度
    第二周进度
    一维整数组所有子数组和的最大值
    初入园子,自我介绍
    密码登录源码(jsp+java+数据库)
    第一周总结
  • 原文地址:https://www.cnblogs.com/huanghanyu/p/13174217.html
Copyright © 2011-2022 走看看