zoukankan      html  css  js  c++  java
  • 机器学习PAL数据预处理

    机器学习PAL数据预处理

    本文介绍如何对原始数据进行数据预处理,得到模型训练集和模型预测集。

    前提条件

    完成数据准备,详情请参见准备数据

    操作步骤

    1. 登录PAI控制台
    2. 在左侧导航栏,选择模型开发和训练 > Studio-可视化建模。在PAI可视化建模页面,单击进入机器学习。                                                                                                                                                                                                                                                       
    3.      
    4. 将组件拖入画布并拼接为实验。
    5. 在左侧菜单栏,单击组件
    6. 在组件列表,选择数据预处理 > 数据合并,将类型转换归一化组件拖入画布。
    7. 在组件列表,将工具下的SQL脚本组件拖入画布,并与准备数据中的读数据表组件拼接为实验,如下图所示。                                                                                                                                                 
               
    8. 配置组件参数。
    9. 单击画布中的SQL脚本组件,在右侧SQL脚本编辑框中输入SQL语句,将字符型字段转化为数值型。
    10. 单击画布中的类型转换组件,在右侧字段设置页签,单击转换为double类型的列下的选择字段,将所有字段转换为double类型。                                                                                                                   
                   
    11. 单击画布中的归一化组件,在右侧字段设置页签,选择所有字段。
    12. 单击画布上方的运行,运行过程中右键单击组件,可以查看组件的输出。
    13. 在组件列表,选择数据预处理 > 数据合并,将拆分组件拖入画布并与其他组件拼接,单击运行。                                                                                                                                                                       
          
    ii.     select age,
    iii.     (case sex when 'male' then 1 else 0 end) as sex,
    iv.     (case cp when 'angina' then 0  when 'notang' then 1 else 2 end) as cp,
    v.     trestbps,
    vi.     chol,
    vii.     (case fbs when 'true' then 1 else 0 end) as fbs,
    viii.     (case restecg when 'norm' then 0  when 'abn' then 1 else 2 end) as restecg,
    ix.     thalach,
    x.     (case exang when 'true' then 1 else 0 end) as exang,
    xi.     oldpeak,
    xii.     (case slop when 'up' then 0  when 'flat' then 1 else 2 end) as slop,
    xiii.     ca,
    xiv.     (case thal when 'norm' then 0  when 'fix' then 1 else 2 end) as thal,
    xv.     (case status  when 'sick' then 1 else 0 end) as ifHealth
    from  ${t1};

    拆分组件默认将原始数据按4:1拆分为模型训练集和模型预测集。您也可以单击拆分组件,在右侧参数设置页签,设置切分比例

    后续步骤

    完成数据预处理后,需要进行数据可视化,详情请参见数据可视化

    人工智能芯片与自动驾驶
  • 相关阅读:
    ImageWatch 无法安装在VS2017环境下的解决方案
    Android CmakeList
    Android 工程越来越大,运行变卡解决方法
    奥卡姆剃刀(简约之法则)
    Cmake时 如何在windows命令行 选择vs版本
    ubuntu 18.04 安装tensorflow 2 cuda10 CUDNN Anaconda3
    Centos7简易通过yum安装phpmyadmin
    centos7 nigx 免费永久获取 Let‘s Encrypt 证书
    Execution failed for task ':app:compileDebugJavaWithJavac'
    centos 安装aconda
  • 原文地址:https://www.cnblogs.com/wujianming-110117/p/14410472.html
Copyright © 2011-2022 走看看