zoukankan      html  css  js  c++  java
  • 1-Spark高级数据分析-第一章 大数据分析

    1.1 数据科学面临的挑战

      第一,成功的分析中绝大部分工作是数据预处理。
      第二,迭代与数据科学紧密相关。建模和分析经常需要对一个数据集进行多次遍历。这其中一方面是由机器学习算法和统计过程本身造成的。
      第三,构建完编写卓越的模型不等于大功告成。数据科学的目标在于让数据对不懂科学的人有用。

    1.2 认识Apache Spark

      Spark继承了MapReduce的线性扩展性和容错性,同事对它做了一些重量级扩展。
      Spark摒弃了MapReduce先map再reduce这样的严格方式。
      Spark扩展了前辈们的内存计算能力。
      在数据处理和ETL方面,Spark的目标是成为大数据界的Python而不是大数据界的Matlab。
      Spark还紧密集成Hadoop生态系统里的很多工具。他能镀锡MapReduce支持的所有数据格式,可以与Hadoop上的常用数据格式,如Avro和Parquet(当然也包括古老的CSV),进行交互。它能读写NoSQL数据库,能连续从Flume何Kafka之类的系统读取数据,能和Hive Metastore交互。
      Spark相比MapReduce仍然很年轻,其批处理能力仍然比不过MapReduce。

    1.3 关于本书

      每个实例都自成一体。

  • 相关阅读:
    公司的CMS参数
    Kafka 如何保证消息可靠性
    我来了
    spring解决乱码
    mybatis反向工程
    Unicode控制字符
    功能跟进记录
    创建IDataProvider实例
    腾讯2016研发工程师笔试题36车 6跑道 没有计时器 最少要几次取前三
    .net mvc下拉列表DropDownList控件绑定数据
  • 原文地址:https://www.cnblogs.com/mr-totoro/p/5775452.html
Copyright © 2011-2022 走看看