华盛顿大学教授Pedro Domingos在本周结束的ACM Webminar上介绍了他认为的机器学习五大流派。他认为,机器学习中符号主义者的代表人物是Mitchell、 Muggleton、Quilan,联结主义者代表是LeCun、Hinton和Bengio,进化主义代表是Koda、Holland以及Lipson,贝叶斯派代表人物是Heckerman,、Pearl和Jordan,Analogizer代表人物是Vapnik等。
1、知识从何而来
Pedro Domingos认为,知识来源于进化、经验、文化和计算机。对于知识和计算机的关系,他引用了Facebook人工智能实验室负责人Yann LeCun的一段话:将来,世界上的大部分知识将由机器提取出来,并且将长驻与机器中。
2、计算机如何发现新知识
Pedro Domingos帮助计算机获取新知识,可以通过以下五种方法来实现
填充现存知识的空白
对大脑进行仿真
对进化进行模拟
系统性的减少不确定性
注意新旧知识之间的相似点
3、机器学习按照学习算法按照学习方式分类,后面按照功能和形式或者计算资源特征分类。在这个广范的领域中现在流行的(CV计算机视觉、VR和AR多媒体技术、计算智能进化算法、神经计算、NLP自然语言处理、图模型、建模工程、推荐系统、复杂网络、强化、增强、迁移学习等)。
监督学习
通常输入一组数据的60%样本集,并且每个都带有标签,它的优势在于对模型的修正功能,直到训练结果达到模型输入的标准结果为止,普遍使用的算法是分类、回归、BP神经网络等。相比较无监督学习就是输入数据没有标签,输出没有标准结果参考,通过相关性的系统工程科学算法减少冗余特征。Apriori算法、K均值、聚类、降维、关联规则(列联法)等学习。半监督学习是输入样本部分带标签,部分不带标签。这种预测主要是验证型,算法多数是从无监督学习中无标签样本中的数据集使用监督学习的算法回归或分类学习得到自己的模型。
按其功能特点和算法本身的优劣势分析通常分为以下几大类:
研究自变量和因变量之间关系的一种预测模型技术,他是一个计算过程。常见算法有:回归
普通最小二乘回归OLSR
牛顿法
线性回归
逻辑回归
逐步回归
多元自适应MARS
局部估计平滑散点图LOESS
实例学习算法 使用相似度准测对预测样本和原始训练集之间相似度做出预测;赢家通吃算法winner-take-all和memory-based learning 记忆基础算法
K-临近KNN
学习矢量量化LVQ
自组织映射SOM
局部加权学习LWL
正则化算法 参数比较小的模型对模型复杂度会有一个惩罚值,便于泛化。其独特之处在于对其他算法的校正功能,一般都是子算法中出现。
岭回归 岭回归分析是一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法,对病态数据的耐受性远远强于最小二乘法。
LASSO算法
ELastic Net
最小角回归LARS
贝叶斯算法
朴素贝叶斯算法
高斯朴素贝叶斯算法
多项式朴素贝叶斯
AODE算法
贝叶斯信念网BBN
贝叶斯网BN
聚类算法: 他是一种质心centrold-based、层次hierarchal建模,只要依赖数据固有的结构性质,从质心按照层级属性分为多组
K-均值
K-中位数
K-方差
K-残差
EM算法
分层聚类
关联规则 主要是差异特征数的计算
Apriori算法
Eclat算法
人工神经网络: 主要解决回归和分类问题的模式匹配,经典感知算法
感知机
反向传播算法BP
Hopfield网络
径向基函数 RBFN
深度学习算法: 数量级大,少量标签
深度波尔兹曼机DBM
深度信念网络DBN
卷积神经网络CNN
模式自编码算法 stacked auto-encoder
降为算法: 试图找到数据固有结构,信号数据的增益
主成分分析PCA
主成分回归PCR
偏最小二乘法PLSR
萨蒙映射
多维尺度分析法MDS
投影寻踪法PP
线性判别分析法LDA
混合判别分析法MDA
二次判别分析法QDA
灵活判别分析法 FDA flexibel discriminant analysis
模型融合算法
boosting
Bagging
AdaBoost
堆叠泛化混合
GDM
GBRT
随机森林
蒙特卡罗 抓住事物运动的几何数量和几何特征,利用数学方法来加以模拟,构造或描述概率过程;实现从已知概率分布抽样;建立各种估计量。
分类器 SVM及其相关衍生算法
特征寻找算法
algorithm accuracy evaluation
performance measures