zoukankan      html  css  js  c++  java
  • Machine Learning数据标准化方法、聚类方法、分类方法、回归方法总结

    数据标准化的方法:

    (1)离差标准化(最大最小值标准化)
    (2)标准差标准化
    (3)归一化标准化
    (4)二值化标准化
    (5)独热编码标准化

    聚类的方法:

    (1)划分法(k-means算法(k-均值算法),k-MEDOIDS算法(k-中心),CLARANS算法)
    (2)层次分析方法(BIRCH算法,cure算法)
    (3)基于密度的方法(DBSCAN算法,DENCLUS算法)
    (4)基于网格的方法(STING算法,CLIOUE算法(聚类高维空间))

    聚类模型评价的指标:

    (1) 兰德系数(ARI评价法),需要真实值,最佳值为1,python里的sklearm函数adjust_rand_score
    (2)互信息(AMI评价法),需要真实值,最佳值为1,python里的sklearm函数adjust_mutuai_info_score
    (3)V-measure评价法, 需要真实值,最佳值为1,python里的sklearm函数completeness_score
    (4)FMI评价法,需要真实值,最佳值为1,python里的sklearm函数fowlkes_mallows_score
    (5)轮廓系数评价法,不需要真实值,畸变程度最大,python里的sklearm函数silhouette_score
    (6)Calinski- Harabasz指数评价法,不需要真实值,相对较大,python里的sklearm函数calinski_harabaz_core

    Tips:评价的标准是组内的相似性越大,组间相似性越小,前四种方法因为有真实值得参与相对于后两种更具有说服力,那么当有真实值得参与时聚类的评价可以等同于分类算法的评价 ,轮廓系数在不考虑业务情况下得分越高越好,最高得分是1

    分类模型的方法:

    (1)逻辑斯蒂回归,在python里的模块为linear_model,函数名为logisticRegression
    (2)支持向量机,在python里的模块为SVM ,函数名为SVC
    (3) k最近邻分类,在python里的模块为neighbors ,函数名为KNeighborsClassifier
    (4)高斯朴素贝叶斯,在python里的模块为naive_bayes ,函数名为GaussiaNB
    (5)分类决策树,在python里的模块为tree ,函数名为Decision Tree Classifier
    (6) 随机森林,在python里的模块为ensemble ,函数名为RandomForestClassifier
    (7)梯度提升分类树,在python里的模块为ensemble ,函数名为GrndientBoostingClassidier

    分类模型评价的指标:

    (1) precision(精确率),最佳值为1,sklearn函数metrics.precision_score
    (2)Recall(召回率),最佳值为1,sklearn函数metrics.recall_score
    (3)F1 值,最佳值为1 ,sklearn函数metrics.f1_score
    (4)Cohen’s Kappa系数,最佳值为1,sklearn.cohen_kappa_score
    (5)ROC曲线,最靠近有轴,在sklearn。roc_curve

    回归模型的方法:

    线性回归、非线性回归、logistics回归、岭回归、主成分回归
    线性回归,在python里的模块linear_model, 函数为linearRegression
    支持向量机回归,在python里的模块svm, 函数为SVR
    最近岭回归、回归决策树、随机森林回归、梯度提升回归树

    回归模型的评价指标:

    方法名称 最优值 sklearn函数
    平均绝对误差 0.0 metrics. mean_absolute_error
    均方误差 0.0 metrics. mean_squared_error
    中值绝对误差 0.0 metrics. median_absolute_error
    可解释方差值 1.0 metrics. explained_variance_score
    R方值,确定系数 1.0 metrics. r2_score

    Tips:回归模型的评价不同于分类模型,虽然都是对真实在进行对比,但是由于回归模型的预测结果的真实值都是线性的,不能够求取precision,recall,和f1等值评价,回归模型拥有自己的评价指标。

  • 相关阅读:
    ADO.Net对Oracle数据库的操作(转)
    代码反思(1)
    继承与多态
    存储过程
    linux学习流程及内容概括
    Linux下终端快捷键
    查找算法
    epoll解读
    TCP/udp编程
    如何学习嵌入式
  • 原文地址:https://www.cnblogs.com/lskreno/p/10844291.html
Copyright © 2011-2022 走看看