zoukankan      html  css  js  c++  java
  • kaggle入门项目:Titanic存亡预测(三)数据可视化与统计分析

    ---恢复内容开始---

    原kaggle比赛地址:https://www.kaggle.com/c/titanic

    原kernel地址:A Data Science Framework: To Achieve 99% Accuracy

    Step 4: Perform Exploratory Analysis with Statistics

    使用描述性与图表分析数据,重点在于数据可视化,突出数据类别与不同feature的关联性

    简单的groupby()获得不同feature对于生存率的影响

    箱型图与柱状图绘制。

    箱型图:plt.boxplot(),清晰表示数据的集中程度、离群点、中位数的位置。

    柱状图plt.hist(),表示每个feature的不同值/分类的Survived数量。

    seaborn 的barplot展示的是某feature的平均值,是数值变量的集中趋势

    pointplot():数值变量的中心趋势估计,并使用误差线提供关于该估计的不确定性的一些指示。

    violinplot():小提琴图显示数据分布及其概率密度。

    因为性别因素对是否生还造成很大影响,因此我们将性别和其他feature联合绘图比较,看看是否有什么新发现:

    然后是其他feature的比较图:

     不同船舱等级和性别对生还率的影响:

    不同年龄的连续生还曲线:

    直方图比较性别、年龄、船舱等级:

    微妙的看出低等仓与中等舱的男性大批死亡。头等舱的女性几乎全部生还。

    pairplot()多变量图将所有的feature交叉绘图,隐含feature之间的关联性。

    heatmap()热力图,反应feature之间的关联度:

  • 相关阅读:
    简爱 灵魂所在
    charles抓取http/https
    Class.forName()用法
    ArrayList源码剖析
    java中的多线程
    分布式负载均衡缓冲系统,如何快速定位到是那个服务器
    maven依赖jar包时版本冲突的解决
    简单工厂模式设计(java反射机制改进)
    Fiddler 抓包工具使用详解
    Fiddler 使用
  • 原文地址:https://www.cnblogs.com/fancyUtech/p/9003336.html
Copyright © 2011-2022 走看看