- 大数据是指数据采集、数据清洗、数据分析和数据应用的整个流程中的理论、技术和方法
- 机器学习是大数据分析的核心内容。机器学习解决的是找到将X和Y关联的模型F,从Data到X的步骤通常是人工完成的(特征工程)
- 深度学习是机器学习的一部分,其核心是自动找到对特定任务有效的特征,也即自动完成Data到X的转换
- 人工智能是模拟人类(自动驾驶、围棋AlphaGo)的行为
机器学习的方法
基本概念
- 数据集:一组样本的集合
- 数据集的一行。一个样本包含一个或多个特征,此外还可能包含一个标签
- 特征:在进行预测时使用的输入变量
基本流程
机器学习的数学结构
1、度量结构:表示数据之间的距离
2、网络结构:有些数据本身就是有网络结构,入社交网络。如果没有可以利用度量结构给数据附加一个网络结构
3、代数结构:降数据看作向量、矩阵或更高阶段的张量
4、几何结构:留形、对身性等