机器学习
什么是机器学习?利用计算机从历史数据中找出规律,并把这些规律应用到对未来不确定场景的决策。
机器学习的原动力?从历史数据中找出规律,把这些规律用到对未来自动作出决定;用数据代替expert;经济驱动。大数据的发展,数据变现靠机器学习。
业务系统发展的历史?基于专家经验,基于统计——分纬度统计,机器学习——在线学习,即在线实时学习调整,优化模型。
典型应用
关联规则。啤酒喝纸尿裤的关系,购物篮分析,同时购买商品。典型的数据挖掘的方法。
聚类。用户细分精准营销。全球通(高端体验),动感地带(发短信),神州行(打电话)。把消费数据拿过来交给计算机去挖掘分类。业务人员分析消费特征,然后去一个品牌名字。
朴素贝叶斯。垃圾邮件识别。
决策树。信用卡欺诈。信贷风险识别。还款能力有限人群和骗子。
ctr预估。点击率预估。互联网广告。搜索引擎。点击率排序。线性的逻辑回归算法。
协同过滤。推荐系统。经常一起购买的商品。
自然语言处理。情感分析。评论识别积极性。实体识别。识别文章的主干,如人名,地名,企业,时间等。
深度学习。图像识别。
更多应用。语音识别。个性化医疗。情感分析。人脸识别。自动驾驶。视频内容识别。机器翻译。
数据分析和机器学习的区别
1.数据特点。
交易数据 vs 行为数据
交易数据,用户订单,存取款账单。和钱有关的数据。数据分析。
行为数据。搜索历史。点击历史。评论。机器学习。
少量数据 vs 海量数据。
采样数据 vs 全量分析。 交易数据要求一致性要求高(转账业务),行为数据要求不高。
NOSQL,not only SQL。只能用来处理行为数据,处理分布式,保证吞吐率的前提下。和钱有关的业务得使用关系数据库。不会使用MongaDB。
Hadoop全量分析,大数据。
2. 解决业务问题不同
OLAP 报告过去发生的事情 vs 预测未来的事情
数据分析说的是历史,机器学习是预测未来发生的事情。
3. 技术手段不同
引入算法之后,让机器去运作,人就不管了。
4. 参与者不同
分析师:分析师能力决定结果。目标用户是给公司的高层人员看的。
数据+算法:算法效果不是那么悬殊。关键是数据质量。针对个体用户。推荐给具体用户。
机器学习的算法分类
算法分类(1)
有监督学习:明确的给出了每一个样本所属的类别,提前打好了标签。邮件垃圾邮件否。根据已知的类别去训练模型参数。分类算法类别。回归算法。
无监督学习:聚类。用户类别提前是不知道的。没有Y值。
半监督学习:半监督学习。强化学习。小孩学走路。走的越多越好。样本数据越多越好。
算法分类(2)
分类与回归:
聚类:
标注:名词,动词,形容词,打标签。
算法分类(3)直指算法本质 回答问题的方式是不一样的 面试可能会问
生成模型:陪审团。属于各个类的概率。模棱两可。
判别模型:法官。最终目的。直接告诉类别。略显武断。
训练模型的思想不一样。
机器学习常见算法一览
SVM面试必考。Apriori多次访问数据库,性能消耗太大,被淘汰。FP-grouth代替,美籍华人发明,两遍数据库扫描。
EM算法理解有难度。比较抽象。
AdaBoost人脸识别。决策树改进版。解决分类问题。
首尾算法使用少。
高逼格算法:
FP-Growth
逻辑回归
RF、GBDT
推荐算法
LDA
Word2Vector