今天刚刚开始接触机器学习。简单想一下自己理解的机器学习。在以往的计算机程序当中,主要还是由人自己来做选择,做决断。而在当下的环境之中,网络世界已经产生了庞大的数据,对于普通用户来说,可以说是信息过载了。而对于IT从业者来说,海量的数据(也就是在网上泛滥的大数据)恰恰是非常好的资源,可以用来分析用户的行为,从而让用户越来越懒,让用户产生对产品的依赖性,而达到留住用户,留住流量的的目的。机器学习在大数据的基础上提炼有用的信息,帮助用户做决策,是让用户越来越懒的一个重要手段。
当去做机器学习的时候,最主要的任务是分类。什么叫做分类呢?就是当你有一个目标之后,你要根据目标的特征将目标进行拆解。将目标归到合适的类别中去。
机器学习涉及到的关键术语:
训练集:用于训练机器学习算法的数据样本。也就是说是已知情况。用已知去推导未知。训练数据就理解为训练集中的数据。
目标变量:机器学习的预测结果。机器学习常常去做预测这种事情。就像用户推荐这样的东西。
测试数据:用来得出算法的实际精确度。判断预测的准不准。
知识表示:这个概念稍微难理解一些,通俗点说,如果机器学习学会了预测方法。那这个对学会了的这种预测方法进行表示就是知识表示了。例如公式, 概率分布等等。等在机器学习实践之中再进一步理解。
机器学习的任务
分类和回归,分别对应离散和连续。
说下回归,回归是预测数值型数据。统计学中的概念。例如根据已有数据画出最优拟合曲线。如果需要的话,翻翻统计学的书。
机器学习中还有一种无监督学习。暂且跳过,暂时讨论监督学习。
开发机器学习的程序的步骤
收集数据→准备输入数据 → 分析输入数据 → 训练算法 → 测试算法 → 使用算法