原文转自:http://longriver.me/?p=23
machine learning 的一点基本知识,三个基本元素:训练集(training set)、模型(model)、测试集(test set)。还记得数理统计上的线性回归吗?根据已有的数据,设定惩罚函数,对线性函数进行参数估计,得到的线性函数就是model,然后在测试集上验证model的预测准确性。很简单。当今互联网公司大量使用machine learning方法。
最简单的例子,使用google搜索,输入china stroy,它会自动纠正你是不是搜索china story。后台的原理是:google储备了大量的先验数据(大量的文本),story出现概率远远大于stroy,而且和china一起出现的情况下,更是story占据了绝大多数,所以根据bayes估计,confidence大于某个阈值的话就会帮助用户自动纠错,这种纠错是非常靠谱的,因为建立在大量可靠的数据之上模拟google的spelling corrector其实只需要python短短的21行代码。http://norvig.com/spell-correct.html。其实当今的机器学习,主流是基于统计的,呵呵,用我们的话通俗的讲就是数据说明一切,用事实说话,前车之鉴后事之师。