机器学习的概述
- 什么是机器学习
- 机器学习是从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测。
- 为什么需要机器学习
- 解放生产力: 智能客户 — 不知疲倦进行24小时作业
- 解决专业问题: ET医疗 ---- 帮助看病
- 提供社会便利 : 如杭州的城市大脑
- 机器学习在各领域的价值
- 领域:医疗,航空,教育,物流,电商…
- 目的: 让机器学习程序替换手动的步骤,减少企业的成本也提高企业的效率
- 例子: 汽车零售商将客户按照对汽车的喜好划分成不同的类,这样营销人员就可以将新型汽车的广告手册直接邮寄给有这种喜好的客户手中,从而大大增加商业机会等。
数据集的构成
-
从历史数据当中获得规律?这些历史数据是怎样的格式?
- 机器学习的数据:一般是文件 csv excel 等
- 因为数据库存在性能瓶颈,读取速度限制,格式不太符合机器学习要求数据的格式等
-
pandas/numpy:读取工具
-
特征值+目标值
序号 颜色 形状 重量 材料 类别
1 红 长方形 50 铁 A
2 黄 圆形 20 铜 B
3 白 椭圆形 10 铝 C
4 绿 正方形 5 塑料 D
5 青 三角形 1 塑料 D
横着的一行叫数据样本
如: 1 红 长方形 50 铁
竖着的每一列叫特征值
如:颜色 形状 重量 材料
想要的分类结果叫 目标值
如:类别 A,B,C,D 有4个目标值
特征工程直接影响预测结果
数据集中对特征的处理:
pandas:一个数据读取非常方便以及基本处理格式的工具
- dataFrame: 缺失值,数据转换,重复值(不需要去重)
sklearn:对于特征的处理提供了强大的接口