zoukankan      html  css  js  c++  java
  • 机器学习的Spark与Scala开发简介

     一、机器学习常用开发软件:Spark、Scala

      1. Spark简介:

         MLlib包含的库文件有:

    • 分类
    • 降维
    • 回归
    • 聚类
    • 推荐系统
    • 自然语言处理
    • 在线学习

    • 统计学习方法:偏向理论性,数理统计的方法,对实时性没有特别要求;
    • 机器学习:偏向工程化(包含数据预处理、特征选择、参数优化),有实时性要求,旨在构造一个整体的系统,如在线学习等;
    • 概率图模型:构建一个统一的方法论,可以解决一些时序模型,概括了表示、推理、学习的流程,如贝叶斯网络等。

        Spark在Standalone模式下的工作原理:

          

         首先,介绍三种重要的角色:

    • Application(发布管理任务)带有自己需要的mem和cpu资源量,会在master里排队,最后被分发到worker上执行。app的启动是去各个worker遍历,获取可用的cpu,然后去各个worker launch executor。
    • Worker(执行加载任务)每台slave起一个,默认或被设置cpu和mem数,并在内存里做加减维护资源剩余量。Worker同时负责拉起本地的executor backend,即执行进程。
    • Master(分配管理资源)接受Worker、app的注册,为app执行资源分配。Master和Worker本质上都是一个带Actor的进程。

        

        其次,介绍Spark在standalone模式下工作的四个步骤:

    • 第一步,(Register Worker)Worker可以认为是一台机器,先在Master注册,是一个启动集群和搜集初始资源的过程,同时给Master维持一个“心跳”;Master负责维护Worker上的资源量和Worker本身host、port等的信息。
    • 第二步,(Register Application)Master接收新App的注册。App和Driver都是通过输入一个spark url提交的,最终在master内存里排队;当Master有新的App进来,或资源可用性发生变化时,会触发资源分配的逻辑。
    • 第三步,(Launch Executor)Master在资源分配的逻辑里,为App分配了落在若干Worker上的Executors,然后对于每一个Executor,Master通知其Worker去启动。
    • 第四步,(Launch Task)App自己来launch task。上面三步都是集群资源的准备过程,App得到了属于自己的资源,包括cpu、内存、起起来的进程及其分布。App内的TaskScheduler和SchedulerBackend是我们熟悉的与task切分、task分配、task管理相关的内容。其中scheduler负责两个重要调度:DAG调度和TASK调度。

      2.  函数式编程与Scala:

    (1)解释性编程语言,它是一种基于冯诺依曼式架构的语言:

    • 修改变量
    • 可以赋值
    • 包括很多控制语句,如if-then-else、loops、break、continue、return

         具体体现在: 

    • Mutable variables 近似 memory cells
    • Variables dereferences 近似 load instructions
    • Variables assignments 近似 store instructions
    • Control structures 近似 jumps

         存在的问题:

    • 摩尔定律存在瓶颈,通过多核而不是增加时钟周期来提高性能;
    • 多核带来锁的问题,多线程之间会相互影响导致程序跑死;
    • 吞吐量巨大也增加了水平扩展的工作量。

    (2)纯函数式编程语言:

    • 没有任何可变变量
    • 没有循环(for、while)
    • 使用递归控制函数

         函数式编程语言广义定义:关注函数本身

        

     二、基于Spark的机器学习应用

      1. 机器学习算法分类:

    • 线性分类器:逻辑回归、SVM
    • 朴素贝叶斯:概率图模型
    • 决策树:非概率模型

     (1)线性分类器:

         线性分类器有三种重要的函数:连接函数、判决函数、损失函数。

    • 连接函数:y=f(x)中的wx是线性的,其中x为特征表示,y为标签表示,w为权值是需要求的参数。
    • 判决函数:y可以被判决为-1,0,1,此时所对应的损失函数的值分别为1,1,0。
    • 损失函数:通过损失函数最小,即梯度为0,来求取权值w(可采用凸优化来求取,但是因为没有闭式解,故采用迭代的方法求取参数值)。

       

         三种典型的损失函数:

    • 0-1损失函数:最理想的状态,但是在0处不连续,不可微分,只能采用逼近的方式来表示;
    • SVM合页损失函数:利用过(0,1)这点的直线近似表示0-1损失;
    • 逻辑损失函数:利用过(0,1)这点的曲线近似表示0-1损失。

      (2)概率图模型:贝叶斯网络

        满足贝叶斯网络需要具有的条件:每个节点的父节点已知,它与它的非子节点是相互独立的。

        朴素贝叶斯网络:

        

         (3)决策树

    • 非概率模型
    • 可以处理原生的类属和数值特征,不要求数据归一化和标准化
    • 非常适合集成方法,如boosting、决策森林

      2. 评估分类模型性能的方法:

         

     3. 分类器优化方向:

       

        调优的两个方向:

    • 性能调优:提高分类器识别率或降低分类器错误率;
    • 系统调优:提高算法运行和识别效率。

        性能调优的四点方向:

    • 特征值:特征不符合高斯分布(特征变换近似高斯分布,如标准化、对数变换、开根号变换);
    • 类别属性:类别属性在做距离时范数不同(统一类别表征的范数,如1of coding);
    • 参数模型:迭代步长与次数、正则化参数调整(不同迭代回归方法解法不同,出现过拟合时参数如何调整);
    • 假设检验:交叉验证(spark和scala自带,不需要重新编程)。

      4. 数据降维方法:

    • D维数据输入——>k维数据输入(k<<D),发现隐含结构特征,去除噪声干扰;
    • 数据预处理方法,不是模型预测方法;
    • 适用维度很高的数据,如图像、视频、文件、声音;
    • PCA和SVD。

       

    • 一个矩阵X一个列向量,相当于在这个列向量上的一个投影;
    • 当这个投影范围越大,数据集的可分性越好,即二范数越大(方差越大);
    • w与S方向一致,且选择对角矩阵中的特征值所对应的最大特征向量。

         

    • 奇异值与特征值对应的特征向量相同;
    • V矩阵的转置就是w矩阵;
    • 聚类也可以做降维(聚成k类,每个点到这k类的距离,将空间映射为k维)。
  • 相关阅读:
    《垃圾回收的算法与实现》——增量式垃圾回收与RC Immix算法
    《垃圾回收的算法与实现》——分代垃圾回收
    《垃圾回收的算法与实现》——保守式GC
    《垃圾回收的算法与实现》——GC标记-压缩算法
    《垃圾回收的算法与实现》——GC复制算法
    《垃圾回收的算法与实现》——引用计数法
    《垃圾回收的算法与实现》——GC标记-清除算法
    《Mysql技术内幕,Innodb存储引擎》——事物
    《Mysql技术内幕,Innodb存储引擎》——锁
    《Mysql技术内幕,Innodb存储引擎》——索引与算法
  • 原文地址:https://www.cnblogs.com/wallacup/p/6005741.html
Copyright © 2011-2022 走看看