zoukankan      html  css  js  c++  java
  • 机器学习系列4:模型类型

    模型类型

    参数模型

    统计学中,参数模型通常假设总体服从某一个分布,该分布由一些参数确定(正太分布由均值和方差确定),在此基础上构造的模型称为参数模型

    包括

    • 逻辑回归
    • 线性成分分析
    • 感知机

    优点

    • 间洁:理论容易理解和解释结果
    • 快速:参数模型学习和训练的速度都很快
    • 数据更少:通常不需要大量的数据,在对数据的拟合不很好时表现也不错

    局限

    • 约束:以选定函数形式的方式来学习本身就限制了模型
    • 有限的复杂度:通常只能应对简单的问题
    • 拟合度小:实际中通常无法和潜在的目标函数吻合

    非参数模型

    对总体的分布不做任何假设,只是知道总体是一个随机变量,其分布是存在的(分布中也可能存在参数),但是无法知道其分布的形式,更不知道分布的相关参数,只有在给定一些样本的条件下,能够依据非参数统计的方法进行推断。

    对目标函数形式不作过多的假设的算法称为非参数机器学习算法,通过不作假设,算法可以自由的从训练数据中学习任意形式的函数。

    非参数理论寻求在构造目标函数的过程中对训练数据作最好的拟合,同时维持一些泛化到未知数据的能力。同样的,他们可以拟合各自形式的函数。

    K近邻算法:其目标是基于k个最相近的模式对新的数据进行预测,这种理论对于目标函数的形式,除了相似模型的数目以外不作任何假设

    包括

    • 决策树、CART、C4.5
    • 朴素贝叶斯
    • 支持向量机SVM
    • 神经网络

    优点

    • 可变性:可以拟合许多不同的函数形式
    • 模型强大:对于目标函数不作假设或者作微小假设
    • 表现良好:对于预测表现可以非常好

    局限性

    • 需要更多的数据:对于拟合目标函数需要更多的训练数据
    • 速度慢:因为需要训练更多的参数,训练过程通常比较慢
    • 过拟合:有更高的风险发生过拟合,对于预测也比较难以解释

    距离模型

    包括

    • 线性回归
    • SVM
    • Logistics回归
    • knn
    • k-means

    预处理

    • 属性多时,最好先降维,以免无意义的数据淹没有意义的数据
    • 使用前做直方图分析,查看样本的密集区域
    • 使用之前需要对各个属性做标准化,以免值大的属性有更大的权重
    • 使用前最好根据经验对各个属性分配不同权重
    • 对于无法直接分开的数据,可以考虑使用核函数转换后再计算距离

    l61GkQ.png

    Monkey
  • 相关阅读:
    laravel 创建自定义全局函数
    JAVA堆栈的区别
    项目经验-国家电网
    OO开发思想:面向对象的开发方法(Object oriented,OO)
    分层开发思想
    软件开发过程与思想
    json学习笔记
    UNIX网络编程——UDP 中的外出接口的确定
    UNIX网络编程——UDP缺乏流量控制(改进版)
    UNIX网络编程——UDP 的connect函数(改进版)
  • 原文地址:https://www.cnblogs.com/monkeyT/p/12160707.html
Copyright © 2011-2022 走看看