zoukankan      html  css  js  c++  java
  • 机器学习特征表达——日期与时间特征做离散处理(数字到分类的映射),稀疏类分组(相似特征归档),创建虚拟变量(提取新特征) 本质就是要么多变少,或少变多

    特征表达

    接下来要谈到的特征工程类型虽然简单却影响巨大。我们将其称为特征表达。

    你的数据并不一定总是理想格式。你需要考虑是否有必要通过另一种形式进行特征表达以获取有用信息。

    • 日期与时间特征: 我们假设你拥有purchase_datetime特征。从中提取purchase_day_of_week与purchase_hour_of_day两项特征可能会更有用。你还可以进行观察聚类以创建诸如purchases_over_last_30_days这类特征。
    • 数字到分类的映射: 假设你拥有years_in_school特征。你可以基于它创建新的grade特征,并分类为“小学”、“初中”和“高中”。
    • 稀疏类分组:假设你拥有一个包含多个类别的特征,但样本量较小。你可以尝试对相似类进行分组,将相似的类别分到一组,然后将剩下的类划分至单一的“其他”类中。
    • 创建虚拟变量 根据你所选取的机器学习实现方法,你可能需要手动地将各分类特征转化为虚拟变量。请务必在稀疏类分组之后再创建虚拟变量。

    见:http://www.infoq.com/cn/news/2017/08/Analysis-practices-Feature-Engin

  • 相关阅读:
    前端笔记-jquery
    git的使用
    前端笔记-bom
    微信小程序没找到构建npm或者没找到node_modules目录
    微信小程序判断 wx:if wx:else
    微信小程序提示云函数部署不成功
    cmd如何进入文件夹
    微信小程序view居中
    vue页面跳转兄弟组件传值
    vue全局变量apiurl
  • 原文地址:https://www.cnblogs.com/bonelee/p/7327506.html
Copyright © 2011-2022 走看看