zoukankan      html  css  js  c++  java
  • Python中常用的包--sklearn

    https://www.cnblogs.com/onemorepoint/p/8284530.html

    朴素贝叶斯

    该方法的任务是还原训练样本数据的分布密度,在多分类中有很好的效果

    朴素贝叶斯分类的优缺点

    优点:
    (1) 算法逻辑简单,易于实现(算法思路很简单,只要使用贝叶斯公式转化一下即可!)
    (2)分类过程中时空开销小(假设特征相互独立,只会涉及到二维存储)
    缺点:
    理论上,朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为朴素贝叶斯模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,在属性个数比较多或者属性之间相关性较大时,分类效果不好。
    而在属性相关性较小时,朴素贝叶斯性能最为良好。对于这一点,有半朴素贝叶斯之类的算法通过考虑部分关联性适度改进。
    K近邻算法
    K近邻算法常常被用作是分类算法
     

    sklearn 线性回归LinearRegression()参数介绍

    LinearRegression(fit_intercept=True,normalize=False,copy_X=True,n_jobs=1)

    线性回归作为一种最简单,但却是最常用的方法,将作为第一篇文章进行了解。

    参数:

    fit_intercept:   布尔型,默认为true

    说明:是否对训练数据进行中心化。如果该变量为false,则表明输入的数据已经进行了中心化,在下面的过程里不进行中心化处理;否则,对输入的训练数据进行中心化处理

    normalize布尔型,默认为false

    说明:是否对数据进行标准化处理

    copy_X           布尔型,默认为true

    说明:是否对X复制,如果选择false,则直接对原数据进行覆盖。(即经过中心化,标准化后,是否把新数据覆盖到原数据上)

    n_jobs            整型, 默认为1

    说明:计算时设置的任务个数(number of jobs)。如果选择-1则代表使用所有的CPU。这一参数的对于目标个数>1(n_targets>1)且足够大规模的问题有加速作用。

    返回值:

    coef_              数组型变量, 形状为(n_features,)或(n_targets, n_features)

    说明:对于线性回归问题计算得到的feature的系数。如果输入的是多目标问题,则返回一个二维数组(n_targets, n_features);如果是单目标问题,返回一个一维数组                               (n_features,)。

    intercept_        数组型变量

    说明:线性模型中的独立项。

    注:该算法仅仅是scipy.linalg.lstsq经过封装后的估计器。

    方法:

    decision_function(X)  对训练数据X进行预测
    fit(X, y[, n_jobs])                     对训练集X, y进行训练。是对scipy.linalg.lstsq的封装
    get_params([deep]) 得到该估计器(estimator)的参数。

    predict(X) 使用训练得到的估计器对输入为X的集合进行预测(X可以是测试集,也可以是需要预测的数据)。

    score(X, y[,]sample_weight)   返回对于以X为samples,以y为target的预测效果评分。

    set_params(**params)            设置估计器的参数

    decision_function(X) 和predict(X)都是利用预估器对训练数据X进行预测,其中decision_function(X)包含了对输入数据的类型检查,以及当前对象是否存在coef_属性的检查,是一种“安全的”方法,而predict是对decision_function的调用。

    score(X, y[,]sample_weight)    定义为(1-u/v),其中u = ((y_true - y_pred)**2).sum(),而v=((y_true-y_true.mean())**2).mean()

              最好的得分为1.0,一般的得分都比1.0低,得分越低代表结果越差。

       其中sample_weight为(samples_n,)形状的向量,可以指定对于某些sample的权值,如果觉得某些数据比较重要,可以将其的权值设置的大一些。

  • 相关阅读:
    C++ 解析CSV文件
    MFC/WTL 设置背景图和控件透明的方法
    VS2008安装x64版本所遇问题
    VS2012 安装番茄插件
    16年面试提问
    git 使用笔记
    03_运算符、键盘录入、流程控制
    02_java关键字、表识符、注释、进制转换、补码反码、数据类型转换
    01_计算机和java基础
    10 js一维数组、一维数组细节
  • 原文地址:https://www.cnblogs.com/hai5111/p/11421867.html
Copyright © 2011-2022 走看看