zoukankan      html  css  js  c++  java
  • 《美团机器实践》略看

    本书PDF版链接:https://pan.baidu.com/s/1_Fblc4AfKgOMc-jd9flI8A 提取码:obwe

    第一章:问题建模

    ps:注意精准率与准确率是有区别的,PR曲线越靠右上角越好,ROC曲线越靠坐标的左上角越好,AUC的值越大(接近1)越好。

    第二章:特征工程

      特征工程与模型二者有时候是此消彼长的,复杂模型在一定程度上减少特征工程需要做的工作。例如:对于线性模型,需要将类别变量进行独热编码等处理。但是对于复杂一些的模型,比如树模型,可以直接处理类别变量。对更复杂的深度学习,模型可以自动进行特征表示;再例如:数值特征,对于线性回归、逻辑回归等,其对输入特征的大小很敏感,对于这种光滑函数建模,需要数值特征归一化处理。而对于随机森林、梯度提升树就没必要归一化了。因此,以上讲的特征工程处理有时候要依据模型而言。

      特征选择中的过滤方法不需要结合机器学习算法(模型),封装方法直接使用机器学习算法评估特征子集的效果。过滤方法不需要机器学习算法验证,效率高简单;封装方法使用预先定义的机器学习算法评估特征选取的质量,效率低;嵌入方法说白了感觉就是在模型中进行特征选择,也就是将特征选择、机器学习算法、模型效果全融合一起。使用工具包,书中有介绍。

    第三章:常用模型

      第二部分,好像不是SVM,场感知因子分解机(没怎么看)。第三部分,梯度提升树(GBDT),详细一点看这。书中有GBDT与XGBOOST的简单公式推导。

     

    第四章:模型融合

      其实我感觉集成学习算法就是模型的融合。集成学习中主要分为:Bagging(并行)和 Boosting (串行)。模型融合肯定要求模型不同,相同则没有意义,这里的不同要么是用不同的算法,要么是相同算法,但是输入不同。粗浅的感觉,stacking与Bagging类似,Bagging是并行,将不同分类(回归)器的结果进行融合后输出。stacking比它多一步,不是将不同分类器的结果融合,而是再经过一个分类器后输出。

    以上是此书的第一部分,算是基础,下面5-7章是第二部分,数据挖掘。

    第五章:用户画像

      用户画像就是根据有关你的数据,对你贴这种标签。标签得来大致有两种:一,经过对大数据统计分析得;二,通过机器学习训练模型(此书介绍的是这种)。书中5.2.1数据挖掘整体架构可以看看,介绍了美团的实际的大致操作过程。

    第六章:POI实体链接

    第七章:评论挖掘

      题外话,好像网页版美团里的酒店看不到用户评价标签,手机版可以。

    第三部分是搜索与推荐,从第8章到第10章。

    第八章:O2O场景下的查询理解与用户引导

    第九章:O2O场景下排序的特点

    第十章:推荐在O2O场景中的应用

    第四部分:计算广告,从第十一章到第十二章。

    第十一章:O2O场景下的广告营销

    第十二章:用户偏好和损失建模

    第五部分:深度学习,从第13章到第14章

    第十三章:深度学习概述

    第十四章:深度学习在文本领域的应用

  • 相关阅读:
    cookie
    接上一篇
    es6
    本地文件r如何上传到github上
    npm的使用说明
    被公司996下的程序媛心路历程
    起点2020
    ES5(基本包装类型)字符串的方法
    ES5数组的方法
    css伪类
  • 原文地址:https://www.cnblogs.com/maxiaonong/p/10600026.html
Copyright © 2011-2022 走看看