zoukankan      html  css  js  c++  java
  • 《python机器学习—预测分析核心算法》:理解数据

    参见原书2.1-2.2节

    新数据集就像一个包装好的礼物,它充满了承诺和希望!

    但是直到你打开前,它都保持神秘!

    一、基础问题的架构、术语,机器学习数据集的特性

    通常,行代表实例,列代表属性特征

    属性,实例中用于预测的数据
    其他名称:预测因子 特征 独立变量 输入

    标签,需要预测的数据
    其他名称:结果 目标 依赖变量 响应

    2.1.1属性和标签的不同类型决定模型的选择
    数值变量 类别变量/因素变量

    惩罚回归算法只能处理数值变量:SVM 核方法 K最近邻
    转换:类别变量->数值变量

    当标签是数值的,就叫作回归问题
    当标签是类别的,就叫作分类问题
    转换:回归问题 170 210 分类问题 >200?

    分类问题也可能比回归问题简单

    2.1.2新数据集的注意事项
    需要检查的事项:
    行数、列数
    类别变量的数目、类别的取值范围
    缺失的值
    属性和标签的统计特性

    处理缺失值:
    1.有大量数据,直接丢弃缺失值
    2.数据比较昂贵,难以获得,填充缺失值
    遗失值插补:最简单的方法,每行所有此项的平均值代替缺失值

    2.2分类问题

    实例:用声呐发现未爆炸的水雷

    (1)确定数据集的规模

    数据规模的影响:
    1.可以大致判断训练所需的时间

    惩罚线性回归 集成方法
    1000 * 1000 1min 几分钟
    10000 * 10000 3-4 hour 12-24 hour

    2.如果数据集的列数远远大于行数,那么采用惩罚线性回归的方法很可能获得最佳的预测

    (2)确定每个属性的特征
    哪些列是数值型,哪些列是类别型

    (3)获得属性的统计信息
    数值型 描述性统计信息
    类别型 具体类别的数量分布

  • 相关阅读:
    CDH6.3.1安装详细步骤(感写B站若泽大数据)
    windows远程ubuntu UI教程
    CentOS7搭建Tensorflow计算环境(cuda+cudnn+jupyterlab(Anaconda3)+pytorch+Tensorflow)
    中国计算机学会推荐国际学术会议和期刊目录-2019
    基于BA网络模型的二部图数据集生成
    GitHub文件的克隆与上传
    博客园中随笔,文章的区别
    Pycharm新建文件时头部模板的配置方法
    asyncio 和aiohttp
    随机UA
  • 原文地址:https://www.cnblogs.com/feinaio2017/p/8504196.html
Copyright © 2011-2022 走看看