令W是给定世界的有限或无限的所有观测对象的集合,由于我们观察能力的限制,我们只能获得这个世界的一个有限的子集,称为样本集。机器学习就是根据这个样本集,推算这个世界的模型,使它对这个世界为真。
需要解决三个问题:
- 一致:假设世界W与样本集Q具有相同的性质。
- 划分:将样本集放到n维空间,寻找一个定义在这个空间上的决策分界面(等价关系),使得问题决定的不同对象分在不相交的区域。
- 泛化:泛化能力是这个模型对世界为真成都的指标。从有限样本集合,计算一个模型,使得这个指标最大(最小)
令Q是给定世界的有限观测对象的集合,人们需要阅读这个数据集合,以便有所发现,但是,由于我们阅读能力的限制,我们必须将Q简约为满足这个限制的描述长度,以便人们可以洞察问题世界的本原。
统计机器学习
黑箱原理:当我们获得一组对问题世界的观测数据,如果我们不能或者没有必要对其建立严格物理模型,我们可以使用数学的方法,从这组数据推算问题世界的数学模型。这类模型一般没有对问题世界的物理解释,但是,在输入输出之间的关系上反映了问题世界的实际。
以《The Nature of Statistical Learing Theory》为标志的机器学习研究。不同于神经网络时代的要点是泛化和表示两个基本问题:
- 强调泛化能力,将学习算法设计建立在泛化指标的基础之上
- 强调线性划分,在学习算法设计上,指出“回归感知机”的重要性。
泛化问题
对泛化能力的刻画就是经典问题“大数定理”,需要哦以样本数量趋近无穷大来描述。
Duda的贡献主要是提出了以经典统计理论为攻击刻画模式识别与机器学习的各类任务,同时暗示了对所建模型的评价方法(试图建立一种新的统计理论,有限样本的统计理论)。即将学习的样本集合理解为从问题世界随机选取的子集,由于不同的样本集合对应不同的模型,而不同模型对问题世界为真的程度不同(泛化或误差),如何计算对问题世界“最真”的模型就是主要任务。
从Duda开始,泛化问题的理论就是用“风险”来刻画数学模型与问题世界模型之间的差别。问题世界与数学模型之间的差别称为风险。经典方法认为,当样本个数趋近于无穷大的时候,如果所建立的数学模型是成功的,则风险应该趋近于0。
Vapnik的考虑则不同,第一,样本集合是风险描述的重要因素,也就是说样本集合将是风险公式中的一个变量。第二,根据PAC,模型以概率1-δ成立,即,模型泛化能力以概率近似正确描述。因此这个统计理论不能简单地仅仅考虑经验风险与期望风险之间的关系,同时需要考虑划分样本集合函数族的划分能力,称为置信范围。
这样,就可以将风险不等式描述为:样本集合的期望风险 <= 样本集合的经验风险 + 置信范围。其中,置信范围是关于函数族的VC维的一个函数。这就是所谓的结构风险。
泛化不等式的研究,首先将样本集合考虑从问题世界中随机选取的一个子集,每个样本集合对应的一个模型,称为假设,这样,泛化不等式经历了三个重要阶段:
- “假设”(模型)个数有限,根据Valiant的PAC理论,推出泛化不等式,称其为PAC泛化不等式。
- “假设”个数无限,根据VC维推出泛化不等式,称为VC维泛化不等式。
集群机器学习
集群机器学习是基于Hebb的多细胞工作假设,在数学上,基于Barlow路线的从感知机到统计机器学习类的方法是以一个连续且光滑的决策分界面划分不同类别标号的样本,而集群机器学习则对线性不可分问题放弃了所谓“连续与光滑”的条件,而只需局部连续光滑。
在泛化问题上,这类机器学习主要沿用Vapnik的有限样本统计理论,使用最大边缘表示其泛化能力,它本身没有特别的贡献,集群机器学习最重要的贡献是在表示上。
Schapire构造性地证明了弱可学习定理,从此建立了这类机器学习的理论基础。
弱可学习定理
首先说明Valiant提出了PAC学习理念,其基本考虑是,我们不需要绝对正确的学习算法,使用概率语言陈述,我们不需要正确性以概率1成立的学习算法,一个学习算法的正确性只要以某种显现表示的概率成立即可,但是,要求这个算法必须满足多项式复杂性
1994年,Kearns和Valiant在PAC学习基础上,进一步将PAC区分为强可学习和弱可学习。
- 强可学习 如果存在一个多项式复杂性的学习算法来识别一组概念,并且识别错误率以概率1-δ小于一个很小的常熟ε,通俗地说,就是正确率很高,那么这组概念就是强可学习的。
- 弱可学习 存在一个多项式复杂性的学习算法识别一组概念的正确率仅比随机猜策略好,通俗地说,只略大于50%。
进而,Kearns和Valiant提出弱学习算法与强学习算法的等价性猜想。1990年,Schapire通过一个构造性方法对该猜想作出了肯定的证明。一个概念是弱可学习,当且仅当它是强可学习的。
符号机器学习
始于Chemosky的语法理论,主要试图解决自然语言处理中的诸多学习问题。目前,我们讨论的符号机器学习是一类随着人工智能发展起来的学习方法,其特点是将样本集合限制在结构化符号数据,而不是自然语言类的非结构化数据,事实上,其本质是对文法学习理论的简化,将学习限制在正则文法下。其主要措施:
- 特征抽取
- 数据的符号化
经典符号机器学习原理
符号机器学习与其他类型的机器学习方法的区别在于,这类机器学习方法是事先给定等价关系,而其他机器学习方法的等价关系需要通过计算才可以获得。自从Samuel将这类机器学习限制在结构化符号数据集合之后,符号机器学习就使用属性值划分数据集合的等价关系。对应用来说,符号机器学习需要两个理论与技术完全不同的步骤:
- 将直接观测数据变换为符号结构化数据
- 将信息系统约简为简洁形式(AQ家族与ID家族)
AQ家族
首先将对象集合表示为合取范式,它的每个原子式属性-值得等式,而每个对象是一个析取表示的子句。
ID家族
集成了Hunt的树表示形式,将信息系统考虑为一个树结构,其中,节点是属性,节点之间的连线上附贴了属性值域中的一个值。ID家族算法的关键是,在树生成个的过程中通过从给定信息系统中选择不同属性作为节点,以保证对这个给定信息系统,生成的树包含最少节点数。
Reduct理论
Pawlak提出了一种描述不确定只是的方法,称为rough set理论。与fuzzy set不同的是,fuzzy set是利用描述经验的隶属度或隶属度函数表示不确定性,而rough sets使用一个称为roughness的量来刻画知识的不确定性,这个量仅仅依赖信息系统的给定符号数据集合。但从泛化角度来看,此做法需要将信息系统满足相当严厉的一致性条件。(实现起来几乎不可能)
rough set 理论暗示了学习的机制(reduct理论)。该理论的基础是正区域(对给定信息系统,删除所有矛盾对象,剩余的对象集合称为这个信息系统的正区域)。当从一个reduct中删除一个属性,必然导致新的矛盾对象对。
流形学习
当我们所获得数据对某个特定目标来说过于稀疏,或者换句话说,在这个数据集合中存在着太多的对特定目标无用、甚至噪音的信息时,我们需要对这个数据集合作变换,以便浓缩这个数据集合,这个过程一般称为特征抽取。特征抽取的本质可以理解为维数约简。
主曲线是一条满足自相容性的曲线,一条通过样本集“中间”的光滑曲线。主曲线以弧长作为参数和投影坐标,可以把原始的无序数据集表示为有序的,具有全局性的一维坐标,进而可以有效地描述样本集一维非线性结构。
流形学习最重要的特点是考虑观测数据整体的性质,同时,又可以从局部出发,来完成对这个整体的计算。