zoukankan      html  css  js  c++  java
  • 数据分析_数据分析概述

    数据分析流程

    了解业务--了解数据--确认业务和数据--预期分析和管理-数据分析方式
    

    了解业务和数据

    01.了解数据

    数据
      1.测量标度类型
        属性本源并不是数字或者符号,通过测量标度将数值或者符号和对象的属性建立关联。
         属性的类型--测量尺度
      	 nominal  标称----等于或者不等于--------一对一的变换
      	 ordinal  序数---大于或者小于----------单调函数的变换
      	 interval 区间----加减------------------- 一次函数
      	 ratio	  比率---- 乘除------------------- 比例函数
      	数据的大类:离散数据和连续数据-
      	数据的度量单位:分、元
         举例
      	 温度--华氏温度和摄氏温度
      	 计数属性是离散的也是比率属性
       2.有序数据--属性涉及时间或者空间的联系
    		截面数据--在相同或者近似相同的时间点上收集的数据
    		时序数据
    		  时间序列数据
    		序列数据--考虑项的位置
    		空间数据		
    数据集
    	数据集的属性
    	  维度
    	  稀疏性
    	  数据集的平衡性--非平衡数据
    	  粒度--分辨率
    	  时效性
    	  相关性
    	  训练集和测试集--为了评估模型的可靠性以及扩展性
    	数据集的表示--数据格式
    	  数据矩阵
    	  购物篮数据
    数据背景
    	数据分析和判断,其中对数据背景的了解是必不可少的
    

    02.了解数据过程中的常见问题

    数据的安全性
    	数据的保密:权限以及抵抗力
    	数据的恢复:冗余-备份-容灾
    
    	数据的追溯:可追溯
    		数据来源--
    		数据过程可重复
    
     数据的可用性
    	数据质量问题
    	    完整,全面,一致,准确,可解释-可靠性
    	    	现象--原因---解决方式
    	    	   异常值--缺失值--重复值--不一致值--噪声--遗漏值
    	    	数据质量的检测和纠正
    	    	数据算法的容忍度
    	数据的复用性
    	   数据格式--数据是给人看的,同时也是给机器看的--文件格式与编码
    	   	通过一定的数据格式--自解释数据格式			例如:JSON,XML等
    	   
    	   数据架构可用性
    	   	架构的可扩展性
    	数据的流动
    		异构数据源流向统一的目标数据--数据的ETL
    		采集误差--转换规则			
    
    数据陷阱
    沉默数据缺失
    数据的成本和时效
    数据过拟合--评估模型的可靠性--分为训练集和测试集
    
    数据造假
    	案例-
    		孙膑	减灶诱敌
    		诸葛亮	增灶退兵
    

    数据分析思路

    确认场景 确认数据  是什么?
    探索原因,需找因素  为什么
    解决思路和方式     怎么办
    

    数据分析技术

    技术流派
    

    数据排查流程

    从数据结果上
     1、检索结果中的数据格式检验,从开发角度来说是了解数据类型,字段等的准确性
     2、检索结果中的数据量是否符合检索条件,判断数据量的准确性。数据的分布,极值和均值等
     3. 样本数据检测,通过不同的数据进行相互验证,判断数据中数值的正确性,
     4. 历史数据检测,进行数据合理性判断
    常规内容
      了解常见的错误类型
      记录特殊的错误类型
      规范的数据操作方式
    

    参考

    参考

  • 相关阅读:
    第一次站立会议
    构建之法阅读笔记03
    软件工程概论学习进度条03
    四则运算三
    构建之法阅读笔记02
    软件工程概论学习进度条02
    四则运算二
    构建之法阅读笔记01
    软件工程概论学习进度条1
    软件工程个人作业01
  • 原文地址:https://www.cnblogs.com/ytwang/p/13859664.html
Copyright © 2011-2022 走看看