zoukankan      html  css  js  c++  java
  • Scikit-Learn机器学习入门

    现在最常用的数据分析的编程语言为R和Python。每种语言都有自己的特点,Python因为Scikit-Learn库赢得了优势。Scikit-Learn有完整的文档,并实现很多机器学习算法,而每种算法使用的接口几乎相同,可以非常快的测试其它学习算法。

    Pandas一般和Scikit-Learn配合使用,它是基于Numpy构建的含有更高级数据结构和工具的数据统计工具,可以把它当成excel。

    加载数据

    首先把数据加载到内存。下载UCI数据集:

    数据标准化

    在开始应用学习算法之前,应首先对数据执行标准化,这是为了确保特征值的范围在0-1。对数据进行预处理:

    分类

    ExtraTreesClassifier(基于树):

    LogisticRegression:

    机器学习算法

    Logistic regression

    通常用来解决分类问题(binary),但是也支持多个分类。这个算法会给出属于某一分类的概率:

    Screen Shot 2016-02-19 at 16.48.07

    朴素贝叶斯-Naive Bayes

    这也是广为人知的机器学习算法,用来学习数据分布的密度,在多分类问题中可以提供高质量的预测结果。

    Screen Shot 2016-02-19 at 16.53.38

    KNN算法(K-Nearest Neighbours)

    它通常用在更复杂分类算法的一部分,它在回归问题中可以提供很好的结果。

    Screen Shot 2016-02-19 at 16.58.05

    决策树-Decision Trees

    能很好的处理回归和分类问题。

    Screen Shot 2016-02-19 at 17.01.29

    支持向量机-Support Vector Machines

    Screen Shot 2016-02-19 at 17.04.26

    Scikit-Learn还提供了一堆更复杂的算法,包括clustering,Bagging 和 Boosting。

  • 相关阅读:
    总结一下最近的工作状和提高效率的方式
    使用hash 算法把数据均匀的放在不同的数据库里面
    微服务-网关-全局过滤器鉴权(未使用spring security)
    Jwt 工具类
    Java泛型(二)<T> 和<?> 的区别
    final 和 static 的区别
    一面bytedance
    catalina.out 显示 端口占用
    No plugin found for prefix 'install' in the current project and in the plugin groups
    Mysql-sql查询技巧分析
  • 原文地址:https://www.cnblogs.com/gejuncheng/p/8127446.html
Copyright © 2011-2022 走看看