超平面(hyperplane)
- 超平面:超平面是n维欧氏空间中余维度等于一的线性子空间,也就是说必须是(n-1)维度。这是平面中的直线、三维空间中平面的推广(n大于3才被称为“超”平面),是纯粹的数学概念,不是现实的物理概念。
- 线性可分(linearly separable):分布于 D 维空间中的全部数据点可以用超平面无错地分隔成类
- One-hot,Coding scheme,1-of-K binary coding scheme:即如果有 K 个类,某数据点属于第 i 个类, 则表示为一个 K 维向量,该向量除了第 i 个分量是 1,其余都是 0。
- 特征向量(Feature vector):对于一个 D 维 input x,使用一个 fixed nonlinear transformation将其映射成同样是D维的向量 ,即 feature vector。
Generalized Linear Model(GLM)
- link function, GLM的建模过程是:先搞清楚y服从什么分布,写出y~DistributionName(θ),然后看θ的取值范围Θ,找一个合适的
link function
f,将Θ映射成整条实直线(即a+bx的取值范围),并规定f(θ)=a+bx - identity function,恒等函数:在数学里,恒等函数为一无任何作用的函数:它总是传回和其输入值相同的函数值。换句话说,恒等函数为函数f(x) = x。
参见: - 广义线性模型(Generalized Linear Model)
- 广义线性模型--Generalized Linear Models
生成方法和判别方法
监督学习方法又分生成方法(Generative approach)和判别方法(Discriminative approach),所学到的模型分别称为生成模型(Generative Model)和判别模型(Discriminative Model)。
- 判别方法:由数据直接学习决策函数Y=f(X)或者条件概率分布P(Y|X)作为预测的模型,即判别模型。基本思想是有限样本条件下建立判别函数,不考虑样本的产生模型,直接研究预测模型。典型的判别模型包括k近邻,感知机,决策树,支持向量机等。
- 生成方法:由数据学习联合概率密度分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型,即生成模型:P(Y|X)= P(X,Y)/ P(X)。基本思想是首先建立样本的联合概率概率密度模型P(X,Y),然后再得到后验概率P(Y|X),再利用它进行分类。注意,这里是先求出P(X,Y)才得到P(Y|X)的,然后这个过程还得先求出P(X)。
参见:
推荐: - 判别模型和生成模型
- 生成模型与判别模型
- 【机器学习基础】生成模型和判别模型
Fisher linear discriminant analysis(FDA)
概括性说法:
- 线性判别分析是统计学上的一种分析方法,用于在已知的分类之下遇到有新的样本时,选定一个判别标准,以判定如何将新样本放置于哪一个类别之中。主要用于二分类问题,对于多类问题则可以多次运用该方法就可以了;
- Fisher线性判别分析的主要原理是将带有类别标签的高维样本投影到一个向量w(一维空间)上,使得在该向量上2类样本的投影值达到“低耦合高内聚“,即类内距离最小而累间距离最大,这样便是分类效果最好的情况)这样便可将问题转化成一个确定w的优化问题。
- 其实w就是二分类问题的超分类面的法向量。
- 类似于SVM和kernel PCA,也有kernel FDA,其原理是将原样本通过非线性关系映射到高维空间中,在该高纬空间利用FDA算法,这里的关键是w可以用原影本均值的高维投影值表示,这样可以不需知道具体的映射关系而给出kernel的形式就可以了。
- 和PCA一样,FDA也可以看成是一种特征提取(feature extraction)的方法,即将原来的n维特征变成一维的特征了(针对该分类只要有这一个特征就足够了)。
详述参见:线性判别方法