一、基本概念:训练集、测试集、特征值、监督学习、非监督学习、半监督学习、分类、回归
1.概念学习:概念学习是指从有关某个布尔函数的输入输出训练样例中推断出该布尔函数
2.训练集(traning set/data)/训练样例(training examples):用来进行训练,也就是产生模型或者算法的数据集
3. 测试集(testing set/data)/测试样例(testing examples):用来专门进行测试已经学习好的模型或者算法的数据集
4.特征向量(features/feature vector):属性的集合,通常用一个向量来表示,附属于一个实例
5.分类(classification):目标标记为类别型数据(categroy)
回归(regression):目标标记为连续型数值(continuous numeric value)
6.有监督学习(supervised learning):训练集有类别标记(class label)
无监督学习(unsupervised learning):无类别标记(class label)
半监督学习(semi-supervised learning):有类别标记的训练集+无类别标记的训练集
7.机器学习基本步骤
7.1 把数据拆分为训练集和测试集
7.2 用训练集和训练集的特征向量来训练算法
7.3 用学习来的算法运用在测试集上来评估算法(这里涉及到调整参数(parameter tuning),用验证集(validation set))
二、技术应用
Python机器学习的库:scikit-learn
特性:简单高效的数据挖掘和机器学习分析
对所有的用户开放,根据不同需求高度可重用性
基于Numpy,SciPy和matplotlib
开源、商用级别:获得BSD许可
覆盖的领域:分类(classification),回归(regression),聚类(clustering),降维(dimensionality reduction),模型选择(model selection),预处理(preprocessing)
使用scikit-learn
安装scikit-learin:pip,easy_install,windows installer
安装必要的包:numpy,SciPy和matplotlib, 可以使用Anaconda(包含numpy,SciPy等科学计算常用的库)