zoukankan      html  css  js  c++  java
  • 机器学习集成算法--- 朴素贝叶斯,k-近邻算法,决策树,支持向量机(SVM),Logistic回归

    朴素贝叶斯:

    是使用概率论来分类的算法。其中朴素:各特征条件独立;贝叶斯:根据贝叶斯定理。
    这里,只要分别估计出,特征 Χi 在每一类的条件概率就可以了。类别 y 的先验概率可以通过训练集算出

    k-近邻算法:

    简单地说,k-近邻算法采用测量不同特征值之间的距离方法进行分类。


    决策树:
    最优划分属性,结点的“纯度”越来越高。

    即如何选择最优划分属性,一般而言,随着划分过程不断进行,我们希望决策树的分支节点所包含的样本尽可能属于同一类别,即结点的“纯度”越来越高。


    支持向量机(SVM)
    是支持(或支撑)平面上把两类类别划分开来的超平面的向量点
    支持向量机本身便是一种监督式学习的方法,它广泛的应用于统计分类以及回归分析中


    Logistic回归

    主要思想是:根据现有数据对分类边界线建立回归公式,以此进行分类,也可以被看成是一种概率估计。

     zhuanzai :http://www.cnblogs.com/hemiy/p/6214034.html

    特征工程

    feature_extraction.text.CountVectorizer([…])
    feature_extraction.text.TfidfVectorizer([…])

    类别型变量 独热向量编码
    data/adult.csv
    老师,dummies 把字符列 多生成一列有什么用呢?
    为了更好的统计用
    多个环节串起来,
    skilenar 常用接口

    get_dummies()
    linspace()
    OneHotEncoder()
    PolynomialFeatures():

    高阶的项,组合属性特征的交集

    文本做特征,
    连续的值的特征
    分桶quantiletransfromer()
    基于模型对特征的选择
    逐步特征删除RFE

    Cross_val_score()交叉验证
    留一交叉验证
    GridsearchCV()


    搭建流程:
    Pipeline:
    pipeline(流水线tuple)
    pipeline(('name',ss()),('age',getage())
    make_pipeline(ss(),log())

    xgboost,
    lightGBM
    数据,噪声,特征:
    day of week
    day of year
    day of month
    week of year
    hour of day
    minute of day
    month of year
    24,48

    用pipeline流程的方式,重新组织Titanic案例,包括特征工程、特征选择、多项式特征、交叉验证、网格搜索

  • 相关阅读:
    算法----递归
    函数调用栈、任务队列、事件轮询、宏任务、微任务
    苹果浏览器和ios中,时间字符串转换问题
    npm 命令行基本操作
    一些积累(做阿里笔试题)……
    CSS reset
    一些正则表达式的实例,供参考使用
    不同浏览器获取不同高与宽的方法
    盒子模型
    CSS中的字体样式和文本样式
  • 原文地址:https://www.cnblogs.com/csj007523/p/7420501.html
Copyright © 2011-2022 走看看