zoukankan      html  css  js  c++  java
  • kaggle入门项目:Titanic存亡预测(三)数据可视化与统计分析

    ---恢复内容开始---

    原kaggle比赛地址:https://www.kaggle.com/c/titanic

    原kernel地址:A Data Science Framework: To Achieve 99% Accuracy

    Step 4: Perform Exploratory Analysis with Statistics

    使用描述性与图表分析数据,重点在于数据可视化,突出数据类别与不同feature的关联性

    简单的groupby()获得不同feature对于生存率的影响

    箱型图与柱状图绘制。

    箱型图:plt.boxplot(),清晰表示数据的集中程度、离群点、中位数的位置。

    柱状图plt.hist(),表示每个feature的不同值/分类的Survived数量。

    seaborn 的barplot展示的是某feature的平均值,是数值变量的集中趋势

    pointplot():数值变量的中心趋势估计,并使用误差线提供关于该估计的不确定性的一些指示。

    violinplot():小提琴图显示数据分布及其概率密度。

    因为性别因素对是否生还造成很大影响,因此我们将性别和其他feature联合绘图比较,看看是否有什么新发现:

    然后是其他feature的比较图:

     不同船舱等级和性别对生还率的影响:

    不同年龄的连续生还曲线:

    直方图比较性别、年龄、船舱等级:

    微妙的看出低等仓与中等舱的男性大批死亡。头等舱的女性几乎全部生还。

    pairplot()多变量图将所有的feature交叉绘图,隐含feature之间的关联性。

    heatmap()热力图,反应feature之间的关联度:

  • 相关阅读:
    c++ 小记
    扁平化设计
    json 学习
    c#多线程下载
    php 序列化储存和转化 json_encode() json_decode($q,true)
    支付接口
    JSON.stringify 语法实例讲解 字符串
    jquery 单选框整个选中
    js戳和php戳时间换算
    windows mysql提示:1045 access denied for user 'root'@'localhost' using password yes 解决方案
  • 原文地址:https://www.cnblogs.com/fancyUtech/p/9003336.html
Copyright © 2011-2022 走看看