zoukankan      html  css  js  c++  java
  • 第七章 映射-化简

    7.1 基本“映射 - 化简”

      略

    7.2 分区与归并

    7.3 组合“映射-化简”

      为了使计算工作可以在集群中的各个节点上并发执行。

      “映射任务”:只能操作同一个聚合内的数据。

      “化简任务”:只操作具有同一关键字的数据。

      7.3.1 举例说明两阶段“映射-化简”

        如果“映射-化简”计算比较复杂,可以使用“管道及过滤器”。

      7.3.2 增量式“映射 - 化简”

        许多情况是,计算过程中,新数据不断涌入,为了保证数据不过时,必须从头计算,这样很耗时,通常用“增量更新”的形式。

    7.5 要点

    • 映射-化简”:是一种在集群上执行并发计算所用的模式。
    • “映射”:任务从聚合中读出数据,将其缩减为键值对。映射只能读一条记录,所以可以在存放记录的节点上并发执行。
    • “映射任务”:会生成许多具备同一个关键字的值,而“化简任务”将它们简化为单一的输出值。化简函数可以并发。
    • 输入数据与输出数据形式相同的多个“化简函数”可归并为“管道”,以提高并发执行能力,并减少传输数据量。
    •     

      

      

      

  • 相关阅读:
    CentOS下Varnish实现动静分离
    Varnish语法
    Varnish日志切割+参数优化
    阿里云CentOS7下部署Django+uwsgi+pip3+pytz+python3
    搭建Hadoop伪分布式环境
    [Linux]-gitlab安装
    pyspider安装
    阿里云ECS搭建SVN
    在Ubuntu18.04安装Adobe Flash Player插件
    从SQL的视角用powershell
  • 原文地址:https://www.cnblogs.com/liufei1983/p/9439830.html
Copyright © 2011-2022 走看看