zoukankan      html  css  js  c++  java
  • 数据分析流程

    数据分析流程

    数据介绍

    数据:
        数据科学(英语:Data Science),又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。
        它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。
        数据科学通过运用各种相关的数据来帮助非专业人士理解问题。
    
    
    from IPython.display import Image
    from IPython.core.display import HTML 
    Image(url= "https://images.gitbook.cn/305484d0-ddb3-11e8-a810-c56af2994f6b")
    

    项目流程

    项目介绍:
    
        开发一套能够评价学生学习情况的软件系统
    
    项目分析:
        理解商业问题 !!1
            对相应的业务有所了解
    
            从业务中梳理出与数据工程项目有关的环节,特别是将业务中某些问题转化为数据问题。
            
        问如下几个问题:
    
            哪些类型的数据能够支持“过程性评价”?
            通过什么渠道可以获取这些数据?
            所获得的数据可靠程度如何?
    
        理解商业问题,把通常的业务人员习惯用的描述性语言,转变为具体的科学性语言,才能对某些环节作出“数据性”回复,实现“数据驱动决策”目标。
    
        过程性评价能够对学生的成长发展提供指导,而不是一考定终身。
    
    
            学生成长发展的指标是什么?是考试成绩?心理发展?身体状况?
            如果是考试成绩,是周考试成绩?月考试成绩?学期末考试成绩?
            如果是心理发展,用什么量表测量?还是凭借主观观察?
            如果是身体状况,又要测量哪些项目?
            衡量学生发展的周期是多长?学年?学期?月?周?日?小时?每次作业?
    
        从数据层面解决上述问题,就必须把有关数据的问题提炼出来,用准确的语言表述,然后考查业务是否能够支持这些问题
    
    数据采集:
        数据收集和前述理解商业问题,两者之间是一个互动关系。研究收集数据的方法,也是对商业问题的再度理解
        
        数据收集还包含着从某个数据集中获得数据的含义。这里所说的数据集,包括但不限于:
    
            数据库,包括关系型和非关系型
            数据接口(API)
            保存数据的文件,比如 Excel、CSV 文档等
            
        从这些数据集中读取到数据?需要的技能应该是:
    
            熟练使用 SQL
            熟练使用某种编程语言(本达人课使用的是 Python 语言)
    
    数据清洗 + 特征 工程:
        
        数据采集后,了解这些数据:
        
            对数据进行简单的描述性统计
            对数据实行可视化,直观地了解数据概况
            
        “数据可视化”的技能  +  “数据清洗”和“特征工程”
    
    结果:
        数据之后,根据商业问题的目标,可以从事两个方面的具体工作:
            
                数据分析:
    
                        应用各种数据分析的方法,最终得到一份分析报告。
    
                        分析结果,除了用数字表达之外,可视化是不可避免的
                
                机器学习:
    
                        机器学习是另外一个专门领域,目前正火热中。
    
                        通过机器学习算法,实现对数据的分类、预测和聚类等操作,在这个过程中,也难免要用“数据可视化”表达某种结论
    
    评估:
    
        不论是机器学习,还是数据分析,其结果都要进行评估。
        对于机器学习而言,有专门的模型评估方式。即便如此,用可视化的方式把结果表达出来,也是一种重要的手段。
    
    总结:
        “数据科学”的基本概念,并简述了“数据工程”项目的基本流程,
    
  • 相关阅读:
    scikit-learn机器学习(四)使用决策树做分类
    从最大似然到EM算法浅解
    scikit-learn机器学习(三)多项式回归(二阶,三阶,九阶)
    一个打印调试信息的样例
    AppFuse 3的乱码问题
    垂直和水平居中方法小结
    Hero In Maze
    Highmaps的天津地图数据JSON格式
    互联网公司面试中常常被问的问题
    MySQL(6)--复制,docker容器中
  • 原文地址:https://www.cnblogs.com/shaozheng/p/12889869.html
Copyright © 2011-2022 走看看