zoukankan      html  css  js  c++  java
  • 机器学习-简单总结

    现在回去看看发现课程内容除去大量公式推导,基本上没有啥东西

    概述

    分类:有监督、无监督、半监督及强化学习

    监督学习:数据有输入和标记。回归问题、分类问题、序列标注问题。

    生成式模型:根据概率预测

    判别式模型:直接学习决策函数

    极大似然估计(MLE):直接训练集的各种样本的概率乘起来,最大化

    最大后验估计(MAP):在MLE的基础上乘一个先验概率

    无监督学习代表:聚类

    决策树

    输入变量到真值有一个真值表,将其变为树的形式,根到叶子的路径表示真值表的一行

    优化目标:减小树的规模,增加泛化程度

    最优类别划分:根据熵(信息增益)来选择最优属性。

    剪枝:预剪枝(划了不如不划),后剪枝(不如换成叶节点)

    连续值的处理:二分

    缺失值的处理:类别划分时,对公式作推广

    线性回归

    给定数据集,求一个模型可以预测结果

    线性回归: (f(x_i)=w^Tx_i+b) ,对均方误差函数求最小值

    正则化:优化结构,即对系数的绝对值加权 (lambda)

    概率论

    切比雪夫不等式:假设随机变量 X 有期望 (E(X)=mu) , 方差 (Var(X)=sigma^2) ,则对任意整数 (epsilon) ,有 (P(|X-mu|geepsilon) le frac{sigma^2}{epsilon^2})

    大数定理:n个独立同分布随机变量,则它们的均值依概率收敛于 (mu)

    中心极限定理:大量独立同分布变量之和依分布收敛于正态分布。

    MLE与MAP:

    MLE认为参数是未知的常数,需要用数据去估计

    MAP认为参数是随机变量,有它自己的概率分布

    MLE对小数据容易过拟合;MAP对不同的先验的结果不同。

    贝叶斯决策论

    贝叶斯决策论:如何基于概率和误判损失来最优化类别标记,即使风险函数最小。

    决策面:二分类问题中,被分类到两类概率相同的样本取值构成的面。

    贝叶斯误差:被分类错误的概率,P(mistake)=P(X in L1, Y=0) + P(X in L0, Y=1)

    贝叶斯分类器的三种分类方法:

    1. 确定条件概率密度、推断先验概率,使用贝叶斯定理求后验概率(生成式模型)
    2. 直接解决后验概率问题,使用决策论分类(判别式模型)
    3. 找到一个函数,直接将输入映射到标签。与概率无关。

    KNN(K邻近)分类器

    根据与原本最近的 k 个样本的投票决定标签。

    K值选择、距离度量、决策规则

    朴素贝叶斯

    生成式模型

    认为各变量条件独立,那么可以将变量之间分开,然后用贝叶斯公式

    [Y_{new}=argmax_{y_k} P(Y=Y_k)prod_{i=1}^nP(X_{new}|Y=Y_k) ]

    逻辑回归

    判别式模型。直接学习 (P(Y|X))

    [P(Y=1|X)=frac{1}{1+exp(w_0+w^TX)} ]

    可以拓展到多分类。所以目的是学习w

    计算交叉熵 (l(w)=sum_lY^lln P(Y^l=1|X^l,W)+(1-Y^l)ln P(Y^l=0|X^l,W))

    求极大值。

    支持向量机(SVM)

    找一个直线,将样本分成两半,且间隔最大

    即对于所有类1的点,满足 (w^Tx+bge C) ,类 -1 的点满足 (w^Tx+ble-C)

    最大化间隔,即 (2C/||w||) 。总之最终是

    [max_{w,b}frac 1 {||w||_2} \ s.t. y_i(w^Tx_i+b)ge 1 ]

    凸二次优化问题,用拉格朗日乘子法。

    上述为硬间隔最大化,实际上有软间隔最大化,即对每个样本点加入一个松弛变量,松弛变量有代价。即

    [min_{w,b}frac 1 2{||w||_2}^2+Csumxi_i\ s.t. y_i(w^Tx_i+b)ge 1-xi_i ]

    聚类

    k-means:

    聚类。

    初始化 k 个簇中心,每个样本找离其最近的簇归类,然后再调整中心的坐标,不断迭代。

    实际上是在优化 (min_{mu,c}sum_isum_{C(j)=i}||mu_i-x_j||^2)

    实际上也是 EM 的步骤:先固定 (mu) 优化 (C) ,再固定 (C) 优化 (mu)

    GMM(混合高斯模型):

    k-means中的 C 函数太硬,我们把它换成后验概率,即 x 属于各个类的概率,然后作MLE,总之最后有了迭代式子

    EM的步骤:先计算后验概率,再根据后验概率迭代参数

    PCA 主成分分析

    主要目的是降维——把原样本空间中相关的维度剔除,留下的维度更能表示原数据。

    具体步骤:

    1. 去中心化
    2. 计算协方差矩阵
    3. 对协方差矩阵进行特征值分解,找到最大的 k 个特征值对应的特征向量,标准化,组成特征向量矩阵W
    4. (z_i=W^Tx_i)

    思想大概是找到在样本空间中单位偏移量影响最大的 k 个方向保留,其他方向抹除,即投影在 k 维超平面上。

    被删除的特征往往与噪声有关,所以这也是某种意义上的降噪

  • 相关阅读:
    Document
    Document
    Document
    Document
    Document
    Document
    Document
    Document
    8.React 组件封装
    window.location / history / 以及相关事件
  • 原文地址:https://www.cnblogs.com/dqsssss/p/12424274.html
Copyright © 2011-2022 走看看