第1章 机器学习基础
1)学习分类
监督学习——是因为这类算法必须知道预测什么,即目标变量的分类信息。
无监督学习——数据没有类别信息,也不会给定目标值。
2)开发机器学习应用程序的步骤
收集数据——制作网络爬虫从网站上抽取数据、从RSS反馈或者API中得到信息、设备发送过来的实测数据(风速、血糖等)、公开可用的数据源
准备输入数据——得到数据之后,还必须确保数据格式符合要求。
分析输入数据——人工分析以前得到的数据,确保数据集中没有垃圾数据。
训练算法——得到的式化数据输入到算法,从中抽取知识或信息,这里得到的知识需要存储为计算机可以处理的格式,方便后续步骤使用。无监督学习算法,由于不存在目标变量值,故而也不需要训练算法。
测试算法——这一步将实际使用第4步机器学习得到的知识信息。为了评估算法,必须测试算法工作的效果。对于监督学习,必须已知用于评估算法的目标变量值;对于无监督学习,也必须用其他的评测手段来检验算法的成功率。
使用算法——将机器学习算法转换为应用程序,执行实际任务,以检验上述步骤是否可以在实际环境中正常工作。