spark（一） - 走看看

zoukankan html css js c++ java

spark（一）

一、spark 学习

1、 spark学习的三种地方：

（1）Spark.apache.org 官方文档

（2）spark的源代码的官方网站 https://github.com/apache/spark

（3）spark的官方的博客 https://databricks.com/blog

大数据改变了世界，spark改变了大数据

2、 Apache Spark™ is a fast and general engine for large-scale data processing.

处理速度快，相比mapreduce（比mapreduce快10倍左右）

3、spark四大特性：

速度快

使用简单:可以使用Java、scala、Python、R开发，spark提供了80多个算子

通用性：Spark 提供了大数据一栈式解决方案。包含了流计算、图计算、机器学习、SQL等。

运行在任何地方： Spark可以运行在Hadoop的YARN、Mesos, standalone,或者运行在云上。 Spark 处理的数据，可以存储在HDFS, Cassandra, HBase,和S3等等。

4、spark四种模式：(前两种国内用的比较多)

(1)spark alone

client 、cluster

(2)spark on yarn

client 、cluster

(3)spark on Mesos（类似于yarn的一个资源调度器）

(4)Spark on EC2

5、什么是RDD（可分区的分布式数据集）

6、spark架构需要了解的几个基本概念

Appliction Appliction jar ....等等

补充：工作当中用的比较多的是spark 1.6.0

查看全文

相关阅读:
流量数据iftop命令
 DNS A记录和CNAME记录
 centos6.5安装mysql
Python列表插入字典（转）
列表转字典
 python 二分法O（logn）
centos 6.5搭建Samba
反爬虫-----看这一篇就够了
 windows常用命令
 requests中文页面乱码解决方案【转】

原文地址：https://www.cnblogs.com/liuwei6/p/6655372.html

Copyright © 2011-2022 走看看