机器学习的中心问题就是从特殊的训练样例中归纳出一般函数,也就是在预定义的假设空间中搜索假设,使其与训练样例有最佳的拟合度。
概念学习:从有关某个布尔函数的输入输出训练样例中推断出该布尔函数。
术语定义:
X 实例集合(所有可能的实例取值集合)
C 目标概念(待学习的概念或函数)
H 所有可能得假设空间
D 训练样例的集合,通常由<x,c(x)>表示
寻找一个假设h,使得对于X中所有的x都有h(x)=c(x).
归纳学习假设:任意假设如果在足够大的训练样例集中很好的逼近目标函数,它也可能在未见的实例中很好的逼近目标函数。
可以把找最佳拟合的过程看成是在假设空间中搜索的过程,这样就把学习问题转化为搜索问题,假设空间通用的自然结构(偏序)可以很好的利用在搜索的过程中。
Find-S(寻找极大特殊假设):
覆盖所有的正例,不处理任何反例,这样找出的假设h就是覆盖所有正例的最特殊假设。肯定比最终要找的假设c更特殊,c不会覆盖一个反例,所以h也不会覆盖一个反例。(前提是训练数据不包含错误,并且真正存在这样的假设)
缺点:1.不能确定是否收敛到最后的假设。2.找到的是最特殊的假设。3.训练样例中的错误和噪声很严重的破坏该算法。4.如果有多个极大假设,只能找到其中一个。
列表后消除算法:
找出所有满足训练样例的假设。初始化为假设空间。
候选消除算法:
找出一般边界和特殊边界,在边界之内的即是满足训练样例的所有假设。
由候选消除算法得到的变型空间收敛到目标概念的条件是:1.训练样例中没有错误。2.目标概念确实存在假设空间中。
候选消除中训练样例的选择:新选择的实例能够满足大约半数的假设,这样log(|vs|)次就可以得到目标概念。
之前一直在假设目标概念真正的存在于假设空间,这其实是概念学习中的归纳偏置问题,假如一开始定义的假设空间没有覆盖到最后要的目标概念,那么我们说这种假设是偏置的,也就是归纳偏置问题。
以上介绍的几种概念学习算法虽然在实际应用中应用不大(受噪声数据和归纳偏执的限制),但对于理解机器学习的整个框架是很有用的,故在此介绍。