zoukankan      html  css  js  c++  java
  • 斯坦福公开课5:生成学习

    北京理工大学计算机专业2016级硕士在读,方向:Machine Learning,NLP,DM
    2017/3/21 9:08:46

    本讲大纲:

    1.生成学习算法(Generative learning algorithm) 
    2.高斯判别分析(GDA,Gaussian Discriminant Analysis) 
    3.朴素贝叶斯(Naive Bayes) 
    4.拉普拉斯平滑(Laplace smoothing)


    生成学习

    判别学习算法(discriminative learning algorithm):直接学习p(y|x)(比如说logistic回归)或者说是从输入直接映射到{0,1}.

    生成学习算法(generative learning algorithm):p(x|y)p(y)进行建模。(p(y)不是很重要)

    简单的来说,判别学习算法的模型是通过一条分隔线把两种类别区分开,而生成学习算法是对两种可能的结果分别进行建模,然后分别和输入进行比对,计算出相应的概率。

    比如说良性肿瘤和恶性肿瘤的问题,对良性肿瘤建立model1(y=0),对恶性肿瘤建立model2(y=1),p(x|y=0)表示是良性肿瘤的概率,p(x|y=1)表示是恶性肿瘤的概率.

    根据贝叶斯公式(Bayes rule)推导出y在给定x的概率为:这里写图片描述

    另见《生成学习与判别学习的区别》一文

    高斯判别分析

    GDA是要学习的第一个生成学习算法.

    GDA的两个假设:

    • 假设输入特征x∈Rn,并且是连续值;
    • p(x|y)是多维正态分布(multivariate normal distribution);

     

     

    1、多维正态分布
    若x服从多维正态分布(也叫多维高斯分布),均值向(mean vector)这里写图片描述,协方差矩阵(convariance matrix)这里写图片描述,写成x~这里写图片描述, 其概率密度函数为: 
    这里写图片描述 
    这里写图片描述表示行列式(determinant).

    均值:这里写图片描述 
    协方差Cov(Z)=这里写图片描述=这里写图片描述 = ∑

     

    高斯分布的一些例子: 
    这里写图片描述 
    左图均值为零(2*1的零向量),协方差矩阵为单位矩阵I(2*2)(成为标准正态分布). 
    中图协方差矩阵为0.6I, 
    右图协方差矩阵为2I

    这里写图片描述 
    均值为0,方差分别为: 
    这里写图片描述

     

    可见增加矩阵对角元素的值,即变量间增加相关性,高斯曲面会沿z1=z2(两个水平轴)方向趋于扁平。其水平面投影图如下:

    即增加∑对角线的元素,图形会沿45°角,偏转成一个椭圆形状。

     

    若∑对角线元素为负,图形如下:

    ∑分别为:

     

    不同μ的图形如下:

    μ分别为:

    μ决定分布曲线中心的位置。

     

    2、高斯判别分析模型 
    这里写图片描述 
    写出概率分布: 
    这里写图片描述

    模型的参数为φ,μ0,μ1,∑,对数似然性为: (生成学习考虑的是joint likelihood 联合似然,判别学习算法考虑conditional likelihood)
    这里写图片描述

    求出最大似然估计为: (详细推导见http://www.cnblogs.com/jcchen1987/p/4424436.html  Σ的答案有误

    这里写图片描述

     

    φ:训练样本中标签为1的样本所占的比例

    μ0:分母为标签为0的样本数,分子是对标签为0的样本的x(i)求和,结合起来就是对对标签为0的样本的x(i)求均值,与高斯分布参数μ为均值的意义相符

    μ1:与μ0同理,标签改为1

     

    结果如图所示: 
    这里写图片描述

    Predict:

     

    预测结果应该是给定x的情况下最可能的y,等式左边的运算符argmax表示计算p(y|x)最大时的y值,预测公式如下:

    因为p(x)独立于y,所以可以忽略p(x)。

     

    如果p(y)为均匀分布,即每种类型的概率都相同,那么也可以忽略p(y),要求的就是使p(x|y)最大的那个y。不过这种情况并不常见。

     

    3、GDA和logistic回归的联系
    P(y=1|x)看作x的函数,则有:
    这里写图片描述
    其中θφ,∑,μ1,μ2的函数,这正是logistic回归的形式。
    4、使用生成学习算法的优缺点

    推论1:

    x|y 服从高斯分布  =>  p(y=1|x)是logistic函数

    该推论在反方向不成立。

     

     

    推论2:

    x|y=1 ~ Poisson(λ1),x|y=0 ~ Poisson(λ0)  =>  p(y=1|x)是logistic函数

     

    x|y=1 ~ Poisson(λ1)表示x|y=1服从参数为λ1泊松分布

     

    推论3:

    x|y=1 ~ ExpFamily(η1),x|y=0 ~ ExpFamily (η0)  =>  p(y=1|x)是logistic函数

     

    推论2的推广,即x|y的分布属于指数分布族,均可推出结论。显示了logistic回归在建模假设选择方面的鲁棒性


    优点:

     

    • 推论1反方向不成立,因为x|y服从高斯分布这个假设更强,GDA模型做出了一个更强的假设,所以,x|y服从或近似服从高斯分布,那么GDA会比logistic回归更好,因为它利用了更多关于数据的信息,即算法知道数据服从高斯分布。

     

    缺点:

     

    • 如果不确定x|y的分布情况,那么判别算法logistic回归性能更好。例如,预先假设数据服从高斯分布,但是实际上数据服从泊松分布,根据推论2logistic回归仍能获得不错的效果。
    • 生成学习算法比判决学习算法需要更少的数据。如GDA的假设较强,所以用较少的数据能拟合出不错的模型。而logistic回归的假设较弱,对模型的假设更为健壮,拟合数据需要更多的样本。
     

    朴素贝叶斯

    学习的第二个生成模型方法

    引例:垃圾邮件分类

    实现一个垃圾邮件分类器,以邮件输入流作为输入,确定邮件是否为垃圾邮件。输出y{0,1}1为垃圾邮件,0为非垃圾邮件。

    首先,要将邮件文本表示为一个输入向量x,设已知一个含有n个词的字典,那么向量x的第i个元素{0,1}表示字典中的第i个词是否出现在邮件中,x示例如下:

    要对p(x|y)建模,x是一个n维的{0,1}向量,假设n=50000,那么x2^50000种可能的值,一种方法是用多项式分布进行建模(伯努利分布对01建模,多项式分布对k个结果建模),这样就需要2^50000-1个参数,可见参数过多,下面介绍朴素贝叶斯的方法。


    假设xi在给定y的时候是条件独立的,则x在给定y下的概率可简化为:(第二个=用到了朴素贝叶斯假设) 假设虽然有缺陷,但是实际效果很好。

     

    模型参数包括:

    Φi|y=1 = p(xi=1|y=1)

    Φi|y=0 = p(xi=1|y=0)

    Φy = p(y=1)

     

    联合似然性:

     

    求得参数结果:

     

     

    Φi|y=1的分子为标记为1的邮件中出现词j的邮件数目和,分母为垃圾邮件数,总体意义就是训练集中出现词j的垃圾邮件在垃圾邮件中的比例。

    Φi|y=0就是出现词j的非垃圾邮件在非垃圾邮件中的比例。

    Φy就是垃圾邮件在所有邮件中的比例。

    求出上述参数,就知道了p(x|y)p(y),用伯努利分布对p(y)建模,用上式中p(xi|y)的乘积对p(x|y)建模,通过贝叶斯公式就可求得p(y|x)

    可以得到:

    这里写图片描述

     

    朴素贝叶斯的问题: 
    假设在一封邮件中出现了一个以前邮件从来没有出现的词,在词典的位置是35000,那么得出的最大似然估计为: 

    这里写图片描述 
    也即使说,在训练样本的垃圾邮件和非垃圾邮件中都没有见过的词,模型认为这个词在任何一封邮件出现的概率为0. 
    假设说这封邮件是垃圾邮件的概率比较高,那么 
    这里写图片描述 
    模型失灵.

    在统计上来说,在你有限的训练集中没有见过就认为概率是0是不科学的.

    Laplace平滑

    根据极大似然估计,p(y=1) = #”1”s / (#”0”s + #”1”s),即y为1的概率是样本中1的数目在所有样本中的比例。Laplace平滑就是将分子分母的每一项都加1,,即:

    p(y=1) = (#”1”s+1)  / (#”0”s+1 + #”1”s+1)

    Generally:yk中可能的值


     

    对于朴素贝叶斯,得到的结果为:

                             

     

    代码实践

    GDA代码实例
    训练数据:鸢尾花数据
    # -*- coding: utf-8 -*-
    from __future__ import division
    import numpy as np
    import matplotlib as mpl
    import matplotlib.pyplot as plt
    def GDA( X, y ):
        m , m0 , m1 = len(y) , len(y[y==0]) , len(y[y==1])
        phi = m0 / m
        u0 = np.sum( X[y==0] , axis=0 ) / m0
        u1 = np.sum( X[y==1] , axis=0 ) / m1
        sigma = np.zeros( (len(X[0]),len(X[0]) ) ) 
        for x , y in zip( X , y ):
            if y == 0:
                sigma += np.dot( np.transpose([x - u0]) , (x - u0).reshape(1,2) )
            else:
                sigma += np.dot( np.transpose([x - u1]) , (x - u1).reshape(1,2) )
        sigma /= m  
        return ( phi , u0 , u1 , sigma )
    def predict( x , phi , u0 , u1 , sigma ):
        inv = np.linalg.inv(sigma) 
        y_hat = []
        for case in x:
            p0 = np.dot( np.dot((case - u0) , inv ) , (case - u0).T ) * (1 - phi)
            p1 = np.dot( np.dot((case - u1) , inv ) , (case - u1).T ) * phi
            y_hat.append( 0 if p0 < p1 else 1 )
        return np.array(y_hat)
        
    df = np.loadtxt(r'C:UsersLoveDMRDesktop8.iris.data', delimiter=',' , converters = { 4: lambda t : {'Iris-setosa':0,'Iris-versicolor':1,'Iris-virginica':2}[t] } );
    df = df[df[:,4] != 2]  # 为了方便学习 ,只关心二分类问题
    #手工特征选择 2个(方便可视化  0-3)
    feature = ( 0 , 1 )
    C1 = df[df[:,4] == 0]
    C2 = df[df[:,4] == 1]
    X , y = np.split(df,(4,), axis=1)
    X = X[:,feature[0]:feature[1]+1]  # 只取两个特征
    y = y[:,0]
    phi , u0 , u1 , sigma = GDA( X, y )
    # 特征分布情况
    plt.figure()
    x1_min , x1_max = X[:,0].min() , X[:,0].max()
    x2_min , x2_max = X[:,1].min() , X[:,1].max()
    t1 = np.linspace(x1_min,x1_max , 500)
    t2 = np.linspace(x2_min,x2_max , 500)
    x1 , x2 = np.meshgrid( t1 , t2 )
    x_test = np.stack((x1.flat,x2.flat),axis=1)
    y_hat = predict( x_test , phi , u0 , u1 , sigma )
    y_hat = y_hat.reshape(x1.shape)
    cm_light = mpl.colors.ListedColormap(['#77E0A0', '#FF8080'])
    plt.pcolormesh(x1,x2,y_hat,cmap=cm_light)
    plt.plot(C1[:,feature[0]],C1[:,feature[1]] , 'bv')
    plt.plot(C2[:,feature[0]],C2[:,feature[1]],'g*')
    plt.xlim(x1_min, x1_max)
    plt.ylim(x2_min, x2_max)
    plt.tight_layout()
    plt.show()
    

      

    特征:花萼宽度+花萼长度(左图) |  花瓣宽度+花瓣长度(右图)
    figure_1.pngfigure_1-1.png

     

     

     


    补充:协方差计算公式与意义

    http://blog.csdn.net/beechina/article/details/51074750

    补充:样本方差公式中为什么要除以(n-1)而不是n呢?

    样本方差与样本均值,都是随机变量,都有自己的分布,也都可能有自己的期望与方差。取分母n-1,可使样本方差的期望等于总体方差,即这种定义的样本方差是总体方差的无偏估计。 简单理解,因为算方差用到了均值,所以自由度就少了1,自然就是除以(n-1)了。
    再不能理解的话,形象一点,对于样本方差来说,假如从总体中只取一个样本,即n=1,那么样本方差公式的分子分母都为0,方差完全不确定。这个好理解,因为样本方差是用来估计总体中个体之间的变化大小,只拿到一个个体,当然完全看不出变化大小。反之,如果公式的分母不是n-1而是n,计算出的方差就是0——这是不合理的,因为不能只看到一个个体就断定总体的个体之间变化大小为0。

    知乎 https://www.zhihu.com/question/20099757

    补充:贝叶斯网络

  • 相关阅读:
    20062007赛季欧洲冠军杯8强对阵情况
    常用的Javascript
    IFRAME 元素 | iframe 对象
    javascript技巧
    javascript部分事件解释
    正则表达式
    c#接口使用方法
    javascript日历控件
    DevExpress DXperience 的本地化(汉化)方法
    运算符总结
  • 原文地址:https://www.cnblogs.com/flyfatty/p/6618998.html
Copyright © 2011-2022 走看看