1.什么是机器学习?
概念:利用计算机从历史数据中找到规律,并把这些规律用到未来不确定场景的决策。
场景:{①确定性场景②不确定性场景}
(人来干)数据分析+(计算机来干)机器学习
2.数据(历史数据)
3.规律
从数据中找出规律{①数学函数②数学公式}
概率论和数理统计
(先抽样->描述统计->假设检验)
用模型刻画(拟合)规律(维度较少时还能用,多维的不可用)
4.机器学习发展的原动力
经济驱动‘数据变现、用数据代替expert
5.业务系统发展的历史
基于专家经验(头脑风暴。。然后交给程序员写iferlse)
基于统计-分纬度统计(依靠业务报表,数据仓库,olap统计)
机器学习-在线学习(实时调整)
6.机器学习的典型应用
(1)关联规则:“啤酒+尿片”
(2)用户细分精准营销:聚类(动感地带、神州行、全球通)
(3)垃圾邮件:朴素贝叶斯
(4)信用卡欺诈:决策树(银行是否可以贷款给你,即风险识别)
(5)互联网广告:ctr预估【现行逻辑回归】
(6)推荐系统:协同过滤
(7)自然语言处理:情感分析+实体识别+图片识别(深度学习)
............更多应用,包括语音识别、自动驾驶、智慧机器人等等
7.机器学习和数据分析的区别
(一)数据特点不同:行为数据 vs 交易数据
海量数据 vs 少量数据
全量分析 vs 采样分析
(二)解决业务问题不同:预测未来 vs 历史发生
(三)技术手段不同: CLAP vs 数据挖掘
数据驱动 vs 用户驱动
自动进行知识发现 vs 交互式分析
(四)参与者不同:计算机 vs 数据分析师
8.机器学习算法分类
第一种分类方法:有监督学习{ 分类算法 回归算法 }
无监督学习{ 聚类 }
半监督学习{ 强化学习 }
第二类分类算法:分类和回归
聚类
标注
第三种分类方法(重要):生成模型(模棱两可)【训练模型思想上有本质区别】
判别模型(给定判断)
9.机器学习中常用的算法:
10.机器学习解决问题的框架:
确定目标:业务需求->数据->特征工程
定义模型:定义损失函数->优化算法
模型评估:交叉验证->效果评估