zoukankan      html  css  js  c++  java
  • 用一行Python进行数据收集探索

    Alt
    Alt

    简易的Pandas之路

    任何使用Python数据的人都会熟悉Pandas包。Pandas是大多数行和列格式数据的go-to包。如果你没有Pandas,请确保在终端中使用pip install安装:

    pip install pandas
    

    现在,让我们看看Pandas包中的默认方法可以做些什么:

    Alt
    以下内容写给不知道上面发生了什么的新手:

    任何Pandas数据帧都有一个.descripe()返回上面的输出的方法。但是,此方法中没有注意到分类变量。在上面的示例中,输出中完全省略了“ method ”列。

    让我们看看能不能解决这个问题。


    Pandas分析

    Alt
    如果我告诉你仅用3行Python就可以产生以下统计信息,你会怎么想?但其实,如果不计算imports的话,总体上只用1行就够。

    • 要点:类型,唯一值,缺失值
    • 分位数统计信息:例如最小值,Q1,中位数,Q3,最大值,范围,四分位数范围
    • 描述性统计数据:例如平均值,众数,标准偏差,总和,中位数绝对偏差,变异系数,峰度,偏度
    • 常用值
    • 直方图
    • 高相关变量Spearman,Pearson和Kendall矩阵的相关性突出显示
    • 缺失值矩阵,计数,热图和缺失值树状图

    (功能列表直接来自Pandas Profiling GitHub)

    好吧,我们可以使用Pandas Profiling软件包!要安装Pandas Profiling软件包,只需在终端中使用pip install即可:

    pip install pandas_profiling
    

    经验丰富的数据分析人员可能会因为这些数据的松散甚至乍一看之下的“华而不实”而嗤之以鼻,但这对于快速获得数据的第一手印象肯定是有用的:Alt
    我们首先看到的是概述,其中提供了关于数据和变量的一些非常高级的统计信息,以及变量之间的高相关性、高偏态性的警告等。

    但这还不算什么。向下滚动我们会发现报告有多个部分,如果只是简单地用图片展示这个1行程序的输出是不足以完全呈现这些内容的,所以我制作了一个gif:

    Alt
    我强烈建议大家自己去探索一下这个包的特性,毕竟,这里提到的只是一行代码,在将来 的数据分析中,这个包可能会对你非常有用。

    import pandas as pd
    import pandas_profiling
    pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/planets.csv').profile_report()
    

    原文链接:https://towardsdatascience.com/exploring-your-data-with-just-1-line-of-python-4b35ce21a82d

    Alt
    以上信息来源于网络,由“京东云开发者社区”公众号编辑整理,不代表京东云立场。

    点击“京东云”了解京东云数据工厂产品
    Alt

    欢迎点击“链接”了解更多精彩内容

  • 相关阅读:
    Hibernate实体对象三种状态
    tar命令: 对某目录文件打tar包时,排除指定的目录或文件
    开发项目时,提示 找不到类的解决方法,以及如何设置编译源目录
    当html中存在url中如: onclick="toView('参数1')", 参数1是特别字符,如&asop;"' "等时,浏览器解析时会报错。解决方法如文中描述
    oracle表分区心得
    启动系统相关服务笔记整理
    使用PSD设计网页页面
    JAR、WAR、EAR 区别
    设置 MyEclipse 默认打开文件方式
    前端性能优化
  • 原文地址:https://www.cnblogs.com/jdclouddeveloper/p/11670606.html
Copyright © 2011-2022 走看看