zoukankan      html  css  js  c++  java
  • 《Bandwidth-Aware Scheduling With SDN in Hadoop:A New Trend for Big Data》--2017

    Hadoop中使用SDN的带宽感知调度:大数据的一种新趋势

    Abstract:

    为了处理大规模的数据,提出了基于Hadoop框架的MapReduce,在Hadoop系统中,有一种叫做NP完全最小(NP-complete minimum)制造跨度问题(make span prlblem)。一种解决办法是在数据本地节点上分配任务来避免链路占用;很多用于data locality 的方法被提出,例如HDS和BAR。可是它们都有其缺点:要么忽略全局视图中的任务分配,要么忽略可用带宽作为调度的基础。
    于是作者就提出了一种基于SDN的启发式带宽感知任务调度算法(简称BASS),将Hadoop和SDN相结合。
    根据作者所说,BASS是第一个探索出SDN在大数据处理的作业调度的优势,并指出其是大规模数据处理的新趋势。
    索引: Bandwidth-aware,big data, Hadoop, cheduling, software-defined networking(SDN).


    concurrently 同时地
    implementation 成就,贯彻
    assign 分派,选派
    scarce 缺乏的、罕见的
    methodology 原则、方法
    disregard 漠视、忽视
    heuristic 启发式的、探索的
    optimized 最佳化的
    exploit 开采、开拓

    Content

    I. I NTRODUCTION

    开头便介绍了SDN和big data的好处,逐渐成了现今发展的趋势。
    随着大数据处理和SDN的发展,那问题就来了:是否可以用于处理最小制造跨度问题(thr minimum make span issue)呢?是否可以将SDN的带宽控制能力和Hadoop系统相结合来探索一种优化的任务调度方案?如图1所示的问号上:


    the NP-complete minimum makespan problem:NP完全最小完工时间问题
    deploy 部署
    automation 自动化
    multicast 多播、多点传送
    deterministic 确定性的
    innovative 革新的,创新的
    Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。
    P类问题:可以在多项式时间内求解出来结果的。
    NP类问题:无法直接计算得到的,例如只能靠猜算得知质数。
    生成问题的一个解通常比验证一个给定的解时间花费要多得多。
    NP-完全问题(NPC问题):既然给定一个结果我们可以快速利用内部只是进行验证是否正确,那么反过来想,是否存在一个确定性的算法,可以在多项式的时间内, 直接算出或搜寻出正确的答案呢?
    optimized 最佳化的
    agility 敏捷,活泼
    utilize 使用,利用
    scarce 缺乏的,罕见的
    parameter 参数
    outperform 胜过,做得更好

    文章的主要贡献如下:
    1. 将the make span 形式化,并提出了一种带宽分配的TS方案;
    2. 提出了一种带宽感知的任务调度器BASS,其性能优于以往所有相关算法;
    3. 用了几个例子和实验来证明BASS的有效性。
    文章的组织如下: Section II 回顾一些相关工作,Section III 对Hadoop集群中的调度问题进行了形式化的描述, Section IV 提出了基于SDN的带宽感知调度器BASS并给出了详细的示例说明, Section V 说了实验的细节,Section VI 总结全文并展望未来。


    formalize 使形式化
    exploit 开采、开拓
    extensive 广阔的、广大的

    Hadoop默认调度程序会搜索data local tasks并将它们分配给空闲节点,但这会增加作业完成时间。Matei建议延迟调度,已解决数据局部性和公平性的冲突,但是这会带来利用不足和不稳定的情况。Tan等人发现map tasks 和reduce tasks 并没很好地共同优化,这就会造成任务调度饥饿以及不利的数据局部性。于是就提出说能不能将两者很好地结合一下,但优于Hadoop中是假定所有节点都是专用于单个用户的,因此也无法保证高性能…作者罗列了很多文章提出的一些方法, 并说明了它们的局限性。

    III. PROBLEM FORMALIZATION

    定义了一些符号,如表1所示:

    然后是一堆公式的集合。

    IV. SDN-BASED BANDWIDTH-AWARE SCHEDULING IN HADOOP FOR BIG DATA PROCESSING

    A. TS Bandwidth Allocation
    B. BASS: Bandwidth-Aware Scheduling With SDN in Hadoop

    V. EXPERIMENTS FOR PERFORMANCE EVALUATION

    A. Experimental Setup
    B. Experimental Results

    VI.CONCLUSION AND EXPECTATIONS

    本文利用SDN并充分考虑链路带宽,以提高大数据处理的性能。本文首先对Hadoop中的makespan问题进行了形式化描述,并提出了一种带宽分配的TS方案,可以以灵活的方式分配任务。最后,作者给出了实例,并实现了扩展的实际实验,证明了BASS的有效性。


    utilize 利用,使用
    exploit 开采,开拓
    formalize 使正式
    allocation 分配
    extensive 广阔的
    cluster 丛、群
    evolvement 发展,进化
    scalability 可测量性

    PS:中间的一些具体实现以及一些公式没有看懂.

  • 相关阅读:
    软件乘法实现
    矩阵连乘求解优化
    { 控件动态创建的堆与栈 }
    digital clock based C
    C++初探
    C语言语法教程-链表
    EF Core 实现读写分离的最佳方案
    Windows Terminal 安装及美化
    .netcore centos环境搭建实战
    AutoMapper.RegExtension 介绍
  • 原文地址:https://www.cnblogs.com/codingbylch/p/9409465.html
Copyright © 2011-2022 走看看