zoukankan      html  css  js  c++  java
  • Coursera, Big Data 4, Machine Learning With Big Data (week 1/2)

    Week 1 Machine Learning with Big Data

    KNime - GUI based

    Spark MLlib - inside Spark

    CRISP-DM 

      

      

      

    Week 2, Data Exploration

    一般有两种方法,summary statistics 和 visualization

      

    Summary statistics (mean  平均数,median 中位数, mode 最常见的数)

      

      

       

    high Kurtosis 预示着有outlier的存在

       

    visualization

      

    这里详细讲一下 box plot

    下图的 upper quartile 和 lower quartile 分别指的是 75% 和 25% 的点, median 很明显是中位数点,中间柱状部分的数据占了总数据的50%. Upper extreme 和 Lower extreme 分别是90% 和 10% 数据的点,超出部分就是outliers.

      

    Data preparing

      

      

    data wrangling 主要是transformation   

    转载请注明出处 http://www.cnblogs.com/mashuai-191/
  • 相关阅读:
    分布式 and 集群
    时间复杂度



    线性表 & 散列表
    栈 & 队列
    数组 & 链表
    数据结构&算法
    Docket 容器引擎
  • 原文地址:https://www.cnblogs.com/mashuai-191/p/10267619.html
Copyright © 2011-2022 走看看