zoukankan      html  css  js  c++  java
  • 元数据和测量尺度

    修改元数据

    概述

    “修改元数据”节点用于显示检测到的元数据或者输入的元数据信息,为后续的模型训练和应用做必要的准备。

    用户可以修改本节点的测量尺度(包括测量尺度、值)和角色,修改后的测量尺度和角色会被检测是否满足一致性要求。

    • 当测量尺度修改完成后,会根据类型来进行一致性检查。
    • 当角色修改完成后,会根据测量尺度来进行一致性检查。

    类型、测量尺度和角色的分类如表1所示。

    表1 分类说明

    名称

    类型

    测量尺度

    角色

    Id_1

    String

    Nominal

    F,M,L

    Input

    Id_2

    Integer

    Flag

    23,47

    Target

    Id_3

    Real

    Continuous

    0.69 – 0.79

    Input

    Id_4

    Date

    Ordinal

    2001-01-01,2001-02-01,2001-03-01

    Input

    Id_5

    Timestamp

    Typeless

    None

    其中类型说明如表2所示。

    表2 类型说明

    类型

    说明

    String

    用于包含非数值的变量(属性),字符串是任何一个字符序列,例如fred,class 2,或者1234。需要注意的是在字符串中的数据是不能用于计算的。

    Integer

    字段是整数的值。

    Real

    值是数字类型(包括整数和小数类型),显示格式由MLS设置决定。

    Date

    时间类型按照年月日的标准(例如2007-09-26),显示格式由MLS设置决定。

    Timestamp

    包含日期和时间(例如:2007-09-26 09:04:00),显示格式由MLS设置决定。

    一致性检测规则如下:

    • 如果某个字段的“类型”是“String”,则“测量尺度”不能设置为“Continuous”。
    • 如果某个字段的“值”数量超过100个,则“测量尺度”不能设置为“Flag”、“Nominal”、“Ordinal”。
    • 如果某个字段的“值”数量不是2个,则“测量尺度”不能设置为“Flag”。
    • 如果某个字段的“测量尺度”是“Typeless”,则“角色”只能被设置为“None”。

    输入与输出

    • 输入:数据集。
    • 输出:数据集。

    参数说明

    表3 “修改元数据”节点参数说明

    参数

    参数说明

    设置元数据

    单击,可以修改以下参数:

    • 字段:字段名。手动输入,以大小写字母开头,包含大小写字母、数字和下划线。
    • 角色:具体参见表4。
    • 测量尺度:具体请参见表5。
    • 值,当“测量尺度”选择“Continue”、“Nominal”、“Ordinal”、“Flag”时可见。
    • 输入数据模式
    • 输出数据模式

    单击,可删除指定的元数据参数。

    表4 角色说明

    类型

    说明

    表示不修改原有角色。

    ID

    样本的ID。通常这个属性在整个样本集中是独一无二的。

    Input

    用作机器学习的输入,作为预测变量。未被设为其他特殊角色的都默认为Input。

    Target

    机器学习算法的输入,作为被预测变量。

    None

    被机器学习算法忽略的变量。

    “测量尺度”设置成“Typeless”时,该参数必须设置为“None”。

    Frequency

    设置建模中每个样本的频数权重。只能是Numeric变量。

    Both

    可同时用于Input和Target的变量。

    Split

    按该字段的不同取值来划分数据集,每个数据集建立一个模型。

    Partition

    用于把数据分割成Training、Testing和Validation的变量。

    表5 测量尺度说明

    衡量

    说明

    Continuous

    用于描述数值,一个连续值可以是一个整数、实数或者date/time/timestamp。

    Nominal

    用于描述具有多个不同值的数据,例如small/medium/large。

    Nominal可以是任何存储变量(numeric,string,date/time/timestamp)。

    Ordinal

    用于描述具有多个不同值但有序的数据,如对运动的喜欢程度排序。

    Flag

    用于描述只有两个不同值的数据并且表示某一个特性的存在或者不存在。例如true和false。

    Flag可以是string、integer、real、date或者timestamp。

    Typeless

    用于描述不属于前面四种类型的数据。例如只有一个值的变量。

     

  • 相关阅读:
    HttpUtils
    其实就是这么回事
    Spring 、 CXF 整合 swagger 【试炼】
    Jetty 学习记录
    WebSphere 学习记录
    Apache 学习记录
    WebLogic 学习记录
    Hessian 学习记录
    IntelliJ IDEA学习记录
    IntelliJ IDEA学习记录
  • 原文地址:https://www.cnblogs.com/sddai/p/9876963.html
Copyright © 2011-2022 走看看