Coursera, Big Data 4, Machine Learning With Big Data (week 1/2) - 走看看

zoukankan html css js c++ java

Coursera, Big Data 4, Machine Learning With Big Data (week 1/2)

Week 1 Machine Learning with Big Data

KNime - GUI based

Spark MLlib - inside Spark

CRISP-DM

　　

　　

　　

Week 2, Data Exploration

一般有两种方法，summary statistics 和 visualization

　　

Summary statistics (mean 平均数，median 中位数， mode 最常见的数)

　　

　　

　　

high Kurtosis 预示着有outlier的存在

　　

visualization

　　

这里详细讲一下 box plot

下图的 upper quartile 和 lower quartile 分别指的是 75% 和 25% 的点， median 很明显是中位数点，中间柱状部分的数据占了总数据的50%. Upper extreme 和 Lower extreme 分别是90% 和 10% 数据的点，超出部分就是outliers.

　　

Data preparing

　　

　　

data wrangling 主要是transformation 　　

转载请注明出处 http://www.cnblogs.com/mashuai-191/

查看全文

相关阅读:
rabiitmq 消息丢失处理
 后端返回文件流和json格式的方式进行文件下载导出
 elasticsearch 安装
 docker-compose 命令
 艾孜尔江的部分影视作品
 游戏作品：万里同风
 Unity设置计时器
 Unity项目中VS Code部分功能出现问题解决思路
 Unity接收FFmpeg的UDP推流
 SVN Basics

原文地址：https://www.cnblogs.com/mashuai-191/p/10267619.html

Copyright © 2011-2022 走看看