zoukankan      html  css  js  c++  java
  • 特征分析

     

    分布分析

    分布分析能够揭示数据的分布特征和分布类型

    定量数据的分布分析:频率分布直方图

    定性数据的分布分析:饼图

    对比分析

    对比分析是把两个相互联系的指标进行比较,从数量上展示和说明研究对象规模的大小,水平的高低,速度的快慢,以及各种关系是否协调。特别适用于指标间的横纵向比较、时间序列的比较分析。比较方式有相对数比较和绝对数比较。

    统计量分析

    1、集中趋势

    均值:均值的主要问题是对极端值很敏感,从而不能很好的度量数据的集中趋势。可以使用截断均值或者中位数来度量数据的集中趋势。

    中位数:

    众数:一般用来度量定性数据

    2、离中趋势

    极差:最大值和最小值的差值

    标准差

    变异系数:标准差与均值的比

    四分位数间距:上下四分位数

    周期性分析

    周期性分析是探索某个变量是否随着时间而呈现出某种周期变化趋势

    贡献度分析(帕累托分布)

    又称2/8定律,例如,对一个公司来讲,80%的利润常常来自于20%最畅销的产品,而其他80%的产品只产生了20%的利润。

    帕累托图的画法:

    先将数据进行降序排列

    data.cumsum()/data.sum()

    相关性分析

    两个变量绘制散点图,多个变量绘制散点图矩阵

    计算相关系数

    Pearson相关系数

     

    Pearson线性相关系数 要求连续变量的取值服从正太分布。不服从正态分布的变量、分类或者等级变量之间的关联性可采用Spearman秩相关系数,也称等级相关系数

     

    di = Ri - Qi

    判定系数:是相关系数的平方

    其他分析

    加减平均:商品价格高于平均价格多少,用户在某个品类下消费超过平均用户多少,用户连续登录天数超过平均水平多少

    分位线:商品属于售出商品价格的多少分位线处

    次序型:排在第几位

    比例型:电商中,好/中/差评的比例

  • 相关阅读:
    CentOS 7.4 安装python3及虚拟环境
    【抓包工具之Fiddler】增加IP列;session高亮
    【抓包工具之Fiddler】导出jmeter脚本
    Python2.7 Centos安装
    Centos 轻松升级 GCC 不改变系统环境
    GraphLab 安装 出错 "Cannot uninstall 'boto'" "Cannot uninstall 'certifi'"
    Centos6 使用 gbdt lightgbm "libc.so.6: version `GLIBC_2.14' not found" "Segment Fault"
    Linux 安装 gbdt xgboost lightgbm
    Sudo Permission Denied
    Linux Load Average高但磁盘IO和CPU占用率不高的可能原因
  • 原文地址:https://www.cnblogs.com/yongfuxue/p/10095367.html
Copyright © 2011-2022 走看看