zoukankan      html  css  js  c++  java
  • scikit-learn 入门

    简介:

    scikit-learn是一个基于NumPy、SciPy、Matplotlib的开源机器学习工具包。採用Python语言编写。主要涵盖分类、

    归和聚类等算法,比如knn、SVM、逻辑回归、朴素贝叶斯、随机森林、k-means等等诸多算法,官网上代码和文档

    都非常不错,对于机器学习开发人员来说。是一个使用方便而强大的工具,节省不少开发时间。

    scikit-learn官网指南:http://scikit-learn.org/stable/user_guide.html

    sklearn 快速入门的官方文档在这里。这个文档主要描述机器学习的概念,以及如何加载数据,训练模型,保存模型。

    数据

    sklearn 中的数据一般存放为二维数组,形状为 [n_samples, n_feartures]。比如著名的 iris 数据集(鸢尾花)包含了三种类别的花(target),共 150 组数据(samples),每组数据由 4 个特征组成,具体来说就是:萼片的长度、萼片的宽度、花瓣的长度、花瓣的宽度。那么,iris 数据集的 data 就由 150*4 的二维数组组成。

    sklearn 提供了很多数据集,一类比较小,直接打包在库中,可以通过 datasets.load_ + Tab 来查看,另一类比较大,需要下载,可以通过 datasets.fetch_ + Tab 查看,下载的目录可以通过sklearn.datasets.get_data_home()查看。

    更详细的信息请参考 notebook 中的 02_sklearn_data.ipynb 文件。

    接口

    创建一个机器学习的模型很简单:

    from sklearn.linear_model import LinearRegression
    model = LinearRegression()
    print model
    

    所有模型提供的接口有:

    • model.fit(): 实际上就是训练,对于监督模型来说是 fit(X, y),对于非监督模型是 fit(X)。

    监督模型提供:

    • model.predict(X_new): 判别新样本
    • model.predict_proba(X_new): 某些模型可以输出概率,比如 LR,上一个输出的就是概率最大的 target
    • model.score(): 得分越高,fit 越好

    非监督模型提供:

    • model.transform(): 从数据中学到新的“基空间”,(例如聚类,稀疏特征?)。
    • model.fit_transform(): 从数据中学到新的基并将这个数据按照这组“基”进行转换。

     

        下面这个图展示了这些接口在机器学习模型中的位置:

    使用scikit-learn中的算法包kNN(k近邻)、SVM(支持向量机)、NB(朴素贝叶斯)来解决问题,解决问题的关键步骤有两个:

    1、处理数据。2、调用算法

     

    参考:http://www.cnblogs.com/daniel-D/

     

    推荐博客:http://blog.csdn.net/u012162613/article/details/41929171

  • 相关阅读:
    cookie,请求报文,
    ser,ver
    关于 通知的 死循环,
    这读取的好蛋疼,为什么一写 一读就有问题了,不一致了,
    缓存小姐 挡拆,网络请求 不同步 惹的祸,
    viewdidload ,viewwillappear,
    提示输入 用户名 ,密码,--》转
    前端面试
    npm与cnpm
    vue与node和npm关系
  • 原文地址:https://www.cnblogs.com/Allen-rg/p/6523290.html
Copyright © 2011-2022 走看看