deep_learning_Function_One-host参数

zoukankan html css js c++ java

deep_learning_Function_One-host参数

在很多机器学习任务中，特征并不总是连续值，而有可能是分类值。比如星期类型，有星期一、星期二、……、星期日，比如浏览器类型有["uses Firefox", "uses Chrome", "uses Safari", "uses Internet Explorer"]。
对于这些离散型特征，可以用几个数字表示特征值，如用1表示星期一，2表示星期二；也可以用one-hot编码，如用[1,0,0,0,0,0,0]表示星期一，[0,1,0,0,0,0,0]表示星期二。
那什么情况用one-hot编码，什么情况可以不用呢？事实上，之所以用one-hot编码，是为了更合理地计算欧式距离。比如，有一个离散型特征，代表工作类型，该离散型特征，共有三个取值，不使用one-hot编码，其表示分别是x_1 = (1), x_2 = (2), x_3 = (3)。两个工作之间的距离是，(x_1, x_2) = 1, d(x_2, x_3) = 1, d(x_1, x_3) = 2。那么x_1和x_3工作之间就越不相似吗？显然这样的表示，计算出来的特征的距离是不合理。那如果使用one-hot编码，则得到x_1 = (1, 0, 0), x_2 = (0, 1, 0), x_3 = (0, 0, 1)，那么两个工作之间的距离就都是sqrt(2).即每两个工作之间的距离是一样的，显得更合理。
对于离散型特征，基于树的方法是不需要使用one-hot编码的，例如随机森林等。基于距离的模型，都是要使用one-hot编码，例如神经网络等。

以下做个实验说明：
一个数据如下，这是对星期类型采用[1,2,3,4,5,6,7]进行编码的方式：
@relation 'day'
@attribute day numeric
@attribute class numeric
@data
1,1100
2,1200
3,1300
4,1400
5,1800
6,2000
7,1800
1,1100
2,1200
3,1300
4,1400
5,1800
6,2000
7,1800
……

在weka中用随机森林RandomForest算法建模，用默认的参数，并进行10折交叉验证的结果如下：
Correlation coefficient                  1
Mean absolute error                      0
Root mean squared error                  0
Relative absolute error                  0      %
Root relative squared error              0      %
Total Number of Instances              210
可以看出，误差为0。

在weka中用BP神经网络MultilayerPerceptron建模，用默认的参数，并进行10折交叉验证的结果如下：
Correlation coefficient                  0.9645
Mean absolute error                     71.9842
Root mean squared error                 85.2536
Relative absolute error                 23.7056 %
Root relative squared error             26.3015 %
Total Number of Instances              210
可以看出，误差比较高。

换one-hot编码的数据如下：
@relation 'day'
@attribute day1 numeric
@attribute day2 numeric
@attribute day3 numeric
@attribute day4 numeric
@attribute day5 numeric
@attribute day6 numeric
@attribute day7 numeric
@attribute class numeric
@data
1,0,0,0,0,0,0,1100
0,1,0,0,0,0,0,1200
0,0,1,0,0,0,0,1300
0,0,0,1,0,0,0,1400
0,0,0,0,1,0,0,1800
0,0,0,0,0,1,0,2000
0,0,0,0,0,0,1,1800
1,0,0,0,0,0,0,1100
0,1,0,0,0,0,0,1200
0,0,1,0,0,0,0,1300
0,0,0,1,0,0,0,1400
0,0,0,0,1,0,0,1800
0,0,0,0,0,1,0,2000
0,0,0,0,0,0,1,1800
……

在weka中用随机森林RandomForest算法建模，用默认的参数，并进行10折交叉验证的结果如下：
Correlation coefficient                  1
Mean absolute error                      0
Root mean squared error                  0
Relative absolute error                  0      %
Root relative squared error              0      %
Total Number of Instances              210
可以看出，误差为0。

在weka中用BP神经网络MultilayerPerceptron建模，用默认的参数，并进行10折交叉验证的结果如下：
Correlation coefficient                  1
Mean absolute error                      0
Root mean squared error                  0
Relative absolute error                  0      %
Root relative squared error              0      %
Total Number of Instances              210
可以看出，误差为0。

所以，在基于距离的模型中，对于离散型特征，应该采用one-hot编码方式，而且对于很多神经网络模型，能够很好地处理稀疏特征的情况。
————————————————
原文链接：https://blog.csdn.net/lanhaier0591/article/details/78702558

查看全文

相关阅读:
jsp_Scriptlet
jsp_注释
 Http状态码详解
 Tomcat服务器的安装和配置
 【BZOJ 1018】线段树 **
【BZOJ 2054】 2054: 疯狂的馒头 (并查集特技)
【BZOJ 1969】 1969: [Ahoi2005]LANE 航线规划（树链剖分+线段树）
【BZOJ 1880】 [Sdoi2009]Elaxia的路线（最短路树）
【UOJ 79】一般图最大匹配 (✿带花树开花)
【UOJ 34】多项式乘法（FFT）

原文地址：https://www.cnblogs.com/0405mxh/p/11603437.html