Spark快速数据处理

zoukankan html css js c++ java

Spark快速数据处理
- 原书名：Fast Data Processing with Spark
- 原出版社： Packt Publishing
- 作者： （美）Holden Karau
- 丛书名： 大数据技术丛书
- 出版社：机械工业出版社
- ISBN：9787111463115
- 上架时间：2014-4-16
- 出版日期：2014 年4月
- 开本：16开
- 页码：114
- 版次：1-1
- 所属分类：
  计算机 > 数据库 > 数据库存储与管理
编辑推荐
　
从实用角度系统讲解Spark的数据处理工具及使用方法
手把手教你充分利用Spark提供的各种功能，快速编写高效分布式程序

内容简介

书籍
 计算机书籍
Spark是一个开源的通用并行分布式计算框架，由加州大学伯克利分校的AMP实验室开发，支持内存计算、多迭代批量处理、即席查询、流处理和图计算等多种范式。Spark内存计算框架适合各种迭代算法和交互式数据分析，能够提升大数据处理的实时性和准确性，现已逐渐获得很多企业的支持，如阿里巴巴、百度、网易、英特尔等公司。
《Spark快速数据处理》系统讲解Spark的使用方法，包括如何在多种机器上安装Spark，如何配置一个Spark集群，如何在交互模式下运行第一个Spark作业，如何在Spark集群上构建一个生产级的脱机/独立作业，如何与Spark集群建立连接和使用SparkContext，如何创建和保存RDD（弹性分布式数据集），如何用Spark分布式处理数据，如何设置Shark，将Hive查询集成到你的Spark作业中来，如何测试Spark 作业，以及如何提升Spark任务的性能。

作译者

Holden Karau　资深软件开发工程师，现就职于Databricks公司，之前曾就职于谷歌、亚马逊、微软和Foursquare等著名公司。他对开源情有独钟，参与了许多开源项目，如Linux内核无线驱动、Android程序监控、搜索引擎等，对存储系统、推荐系统、搜索分类等都有深入研究。
余璜　阿里巴巴核心系统研发工程师，OceanBase核心开发人员，对分布式系统理论和工程实践有深刻理解，专注于分布式系统设计、大规模数据处理，乐于分享，在CSDN上分享了大量技术文章。
张磊　Spark爱好者，曾参与分布式OLAP数据库系统核心开发，热衷于大数据处理、分布式计算。

目录

《Spark快速数据处理》
译者序
作者简介
前言
第1章　安装Spark以及构建Spark集群 / 1
1.1　单机运行Spark / 4
1.2　在EC2上运行Spark / 5
1.3　在ElasticMapReduce上部署Spark / 11
1.4　用Chef(opscode)部署Spark / 12
1.5　在Mesos上部署Spark / 14
1.6　在Yarn上部署Spark / 15
1.7　通过SSH部署集群 / 16
1.8　链接和参考 / 21
1.9　小结 / 21
第2章　Spark shell的使用 / 23
2.1　加载一个简单的text文件 / 24
2.2　用Spark shell运行逻辑回归 / 26
2.3　交互式地从S3加载数据 / 28
2.4　小结 / 30
第3章　构建并运行Spark应用 / 31
3.1　用sbt构建Spark作业 / 32
3.2　用Maven构建Spark作业 / 36
3.3　用其他工具构建Spark作业 / 39
3.4　小结 / 39
第4章　创建SparkContext / 41
4.1　Scala / 43
4.2　Java / 43
4.3　Java和Scala共享的API / 44
4.4　Python / 45
4.5　链接和参考 / 45
4.6　小结 / 46
第5章　加载与保存数据 / 47
5.1　RDD / 48
5.2　加载数据到RDD中 / 49
5.3　保存数据 / 54
5.4　连接和参考 / 55
5.5　小结 / 55
第6章　操作RDD / 57
6.1　用Scala和Java操作RDD / 58
6.2　用Python操作RDD / 79
6.3　链接和参考 / 83
6.4　小结 / 84
第7章　Shark-Hive和Spark的综合运用 / 85
7.1　为什么用Hive/Shark / 86
7.2　安装Shark / 86
7.3　运行Shark / 88
7.4　加载数据 / 88
7.5　在Spark程序中运行HiveQL查询 / 89
7.6　链接和参考 / 92
7.7　小结 / 93
第8章　测试 / 95
8.1　用Java和Scala测试 / 96
8.2　用Python测试 / 103
8.3　链接和参考 / 104
8.4　小结 / 105
第9章　技巧和窍门 / 107
9.1　日志位置 / 108
9.2　并发限制 / 108
9.3　内存使用与垃圾回收 / 109
9.4　序列化 / 110
9.5　IDE集成环境 / 111
9.6　Spark与其他语言 / 112
9.7　安全提示 / 113
9.8　邮件列表 / 113
9.9　链接和参考 / 113
9.10　小结 / 114
查看全文

相关阅读:
C++中字符数组和字符指针问题
 C++中的常量指针和指针常量
 C++中指针形参问题
 Xcode视图调试Debug View Hierarchy
第3章程序的机器级表示（深入理解计算机系统）
第2章信息的表示和处理（深入理解计算机系统）
第1章计算机系统漫游（深入理解计算机系统）
用gcc编译.cpp文件可能出现"undefined reference to `__gxx_personality_v0'"问题的解决
 第12章并发编程（深入理解计算机系统）
第11章网络编程（深入理解计算机系统）

原文地址：https://www.cnblogs.com/timssd/p/4368599.html

Spark快速数据处理

编辑推荐

内容简介

作译者

目录