本书PDF版链接:https://pan.baidu.com/s/1_Fblc4AfKgOMc-jd9flI8A 提取码:obwe
第一章:问题建模
ps:注意精准率与准确率是有区别的,PR曲线越靠右上角越好,ROC曲线越靠坐标的左上角越好,AUC的值越大(接近1)越好。
第二章:特征工程
特征工程与模型二者有时候是此消彼长的,复杂模型在一定程度上减少特征工程需要做的工作。例如:对于线性模型,需要将类别变量进行独热编码等处理。但是对于复杂一些的模型,比如树模型,可以直接处理类别变量。对更复杂的深度学习,模型可以自动进行特征表示;再例如:数值特征,对于线性回归、逻辑回归等,其对输入特征的大小很敏感,对于这种光滑函数建模,需要数值特征归一化处理。而对于随机森林、梯度提升树就没必要归一化了。因此,以上讲的特征工程处理有时候要依据模型而言。
特征选择中的过滤方法不需要结合机器学习算法(模型),封装方法直接使用机器学习算法评估特征子集的效果。过滤方法不需要机器学习算法验证,效率高简单;封装方法使用预先定义的机器学习算法评估特征选取的质量,效率低;嵌入方法说白了感觉就是在模型中进行特征选择,也就是将特征选择、机器学习算法、模型效果全融合一起。使用工具包,书中有介绍。
第三章:常用模型
第二部分,好像不是SVM,场感知因子分解机(没怎么看)。第三部分,梯度提升树(GBDT),详细一点看这。书中有GBDT与XGBOOST的简单公式推导。
第四章:模型融合
其实我感觉集成学习算法就是模型的融合。集成学习中主要分为:Bagging(并行)和 Boosting (串行)。模型融合肯定要求模型不同,相同则没有意义,这里的不同要么是用不同的算法,要么是相同算法,但是输入不同。粗浅的感觉,stacking与Bagging类似,Bagging是并行,将不同分类(回归)器的结果进行融合后输出。stacking比它多一步,不是将不同分类器的结果融合,而是再经过一个分类器后输出。
以上是此书的第一部分,算是基础,下面5-7章是第二部分,数据挖掘。
第五章:用户画像
用户画像就是根据有关你的数据,对你贴这种标签。标签得来大致有两种:一,经过对大数据统计分析得;二,通过机器学习训练模型(此书介绍的是这种)。书中5.2.1数据挖掘整体架构可以看看,介绍了美团的实际的大致操作过程。
第六章:POI实体链接
第七章:评论挖掘
题外话,好像网页版美团里的酒店看不到用户评价标签,手机版可以。