zoukankan      html  css  js  c++  java
  • 用最少的字介绍最常用的机器学习分类算法

    在搞笑诺贝尔奖Ig Nobel Prize颁奖典礼上, 有一个节目叫24/7,先让科研者先用24秒完整讲解科研工作,然后再用让所有人都明白的7个单词总结。有人讲,如果一个人不能把深奥的理论描述清楚得让跳广场舞的大妈明白,就不能算真正理解中这个理论。虽然凡事都有例外,但是跟外行人聊天或者面试时,我们经常会遇到要把深奥的专业知识讲解出来,让非专业人士都明白其中的精髓。这篇博客将斗胆挑战讲解机器学习中的几个常用的分类算法,字数不得超五十,越容易理解越好越好,越少越好。为了使文章做到通俗易懂,有基本的数学知识就能理解,我省略很多专业称谓。如果说错了或者读者有更好的讲解,请不吝赐教。

    KNN K Nearest Neighbour K近邻算法
    版本一:在多维特征空间里,一个数据点的类别,与跟它最近的K个数据点的类别,是一样的概率很大。
    版本二:如果要了解一个人是什么样的,最有可能从他身边的亲人,朋友,邻居的特性中找到答案。比如一个人的亲近的朋友都会打麻将,那么极大可能他也会打麻将。
    版本三:“近朱者赤,近墨者黑”的概率大于“出淤泥而不染,浊清涟而不妖”。

    K Means K均值
    在特征空间中,随机选k个中心,其他所有点找到距离最近的中心,形成k个聚类。然后聚类的中心点成为空间中新的中心,其他所有点再次根据距离形成新的聚类。重复这个过程,直到中心不在变化时。

    SVM Support Vector Machine 支持矢量机
    在特征空间中,画不同的边界,找出距离所有点总距离最远的边界。

    Decision Tree 决策树
    数据点的每一个特征都用来一层一层地进行判断是否属某一类别,就像一个棵树,从树根经过树干,大小不同树枝到每片叶子。

    Naive Bayes 朴素贝叶斯
    假设某一类别的数据点的所有特性都是不相关的,某一特征判定为某类别的概率是相互独立的。根据贝叶斯,计算出新的数据点各种特征条件下为各类别的概率,最终类别为概率最大者。

    Random Forest 随机森林
    很多的决策树随机地建立一个森林,决策树之间是没有关联的。让森林中的每一棵决策树分别进行一下判断数据点类型,然后看看哪一类被选择最多,就预测该数据点为那一类。

     

  • 相关阅读:
    Python使用SMTP模块、email模块发送邮件
    harbor搭建及使用
    ELK搭建-windows
    ELK技术栈之-Logstash详解
    【leetcode】1078. Occurrences After Bigram
    【leetcode】1073. Adding Two Negabinary Numbers
    【leetcode】1071. Greatest Common Divisor of Strings
    【leetcode】449. Serialize and Deserialize BST
    【leetcode】1039. Minimum Score Triangulation of Polygon
    【leetcode】486. Predict the Winner
  • 原文地址:https://www.cnblogs.com/guanghuiz/p/5002494.html
Copyright © 2011-2022 走看看