zoukankan      html  css  js  c++  java
  • 3.1 表格类数据

    表格中的数据,一般来说每一列是不同类的。而tensor中的数据,是同类的。所以我们先来学习把现实世界中不同类的数据,编码为tensor中的同类数据。

    网络上有大量免费的表格数据可供下载,例如 https://github.com/caesar0301/awesome-public-data sets

    我们使用一个有趣的葡萄酒的表格数据:https://archive.ics.uci.edu/ml/machine-learning-databases/winequality/winequality-white.csv.

    该数据集有12列,前11列是酒的化学物质属性的值,最后一列是对酒品质的评分,0分最差,10分最好。

    11个化学属性分别是:

     一个可能的机器学习任务是:找出酒的品质评分与化学物质之间的关系。比如,我们可能看到随着漂浮物的减少,酒的品质在增加。

        

    我们使用Numpy来处理CSV文件

     然后我们检查以下数据是否完整

     之后我们把Numpy数组转成tensor

     我们把数据和评分拆分开

     对评分的处理方式有两种,一是把评分当作连续的数据,则是一个回归问题。或者是把评分当作标签,则是一个分类问题。

    如果把评分看作标签,我们又有两种处理方式

    • 把标签看作是评分的整数型向量

      

      如果标签是string类型的,我们把每一个标签分配一个数字,就可以用同样的方法处理了。

    • 对评分进行one-hot编码
      •   即把这个10以内的分数,编码为长度为10 的向量,向量中对应分数中的元素设置为1,其他元素设置为0.比如1对应[1,0,0,0,0,0,0,0,0,0,0].3对应[0,0,3,0,0,0,0,0,0,0

       我们可以使用 scatter_方法来实对tensor的one-hot编码

         

      scatter_的三个参数分别是:

             

     第二个参数是索引tensor,表示scatter的索引。需要跟被scatter的tensor维度一致。所以我们使用 unsqueeze方法,对 target tensor扩展一个维度。

     

  • 相关阅读:
    华为AR2204多VLAN走不同wan口
    supervisord管理Django项目
    Django3 channels websocket实时读取日志返回前端
    雪球网接口测试
    算法图解: 1.二分查找
    HttpRunner3源码阅读:10.测试执行的处理 runner
    HttpRunner3源码阅读:9. 测试用例中的类定义testcase
    HttpRunner3源码阅读:8. 用例文件生成并格式化make
    HttpRunner3源码阅读:7.响应后处理 response.py
    HttpRunner3源码阅读:6.请求客户端client
  • 原文地址:https://www.cnblogs.com/superxuezhazha/p/13410601.html
Copyright © 2011-2022 走看看