机器学习主要是为了设计和分析一些让计算机可以自动"学习"的算法。即从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。
定义:机器学习是对能通过经验自动改进的计算机算法的研究
机器学习主要分为两大类,分别是:监督学习和无监督学习;监督学习是指对于输入的训练集中既有特征(feature),也有标签(label),学习的过程是找出特征和标签间的关系(mapping);无监督学习是指输入训练集中只有特征(feature),学习的过程是从这些输入数据集中找出这些特征的共性(找出标签label),也就是聚类;监督学习主要包括两大类学习算法,分别为:统计分类和回归分析,具体算法包括:决策树、朴素贝叶斯、逻辑回归、KNN、SVM、神经网络、随机森林、AdaBoost、遗传算法等; 无监督学习也包括两大类型的学习算法,分别为:聚类和关联规则;具体算法包括:K-means、BIRCH、Apriori、C模糊聚类等
在机器学习算法中,通常将分类错误的样本数占总样本数的比率成为错误率(error rate),即如果在m个总样本中有a个样本是错误的,那么错误率E = a / m; 对应的, 1 - a / m 被成为精度;更一般的来讲,将预测输出和样本实际输出之间的差异称为“误差”,通常将训练集上的误差成为“训练误差”或“经验误差”,在新样本上的误差被称为“泛化误差”;由于泛化误差只有在新样本中才可以看到,在训练模型的过程中只能得到经验误差,一般而已,如果检验误差为0,这种模型不是最好的模型。实际上来讲,我们希望的到的模型是在新样本上具有比较低的泛化误差的模型,那么在这个模型的构造过程中,可能存在两个问题:过拟合和欠拟合;过拟合是指机器学习算法的学习能力太强,将训练集中数据本身的特征当做所有数据的一般特征了,这样导致泛化能力下降;欠拟合指机器学习算法的学习能力太弱,无法将训练集中的数据一般特性归纳到最终的结果模型中。