【E-15-Xgboost】ValueError: y contains previously unseen labels: [169, 977, …]

zoukankan html css js c++ java

【E-15-Xgboost】ValueError: y contains previously unseen labels: [169, 977, …]

一、问题源头

训练xgboost分类时报错的，错误如题

二、原因

因为做了：train_test_split，导致train中的label不一定包含test的，从而出现上述问题

三、解决方案

1、方案一：确保每个类都能取到并放到train中；

2、方案二：忽略测试集，将全部数据放到train中。但是未来不可预计，只能使用历史数据；最大缺点是会影响验证集和测试集的检测的真实性；

3、方案三：添加一个类"unknown",在训练集中添加一个键值对，再将test中的匹配下，没有在训练集中的label，均视为类"unknown"

本文采用

之前采用方案二，目前采用方案三：

X_train = np.vstack((X_train,np.random.rand(1,128))) #增加一个unknow的部分，in test set，not in train set，这里我的数据是【1，128】的

y_train_code = np.append(y_train_code,np.array("unknown")) #同样对应的Y也需要增加，因为这是键值对的形式。

vocab_code = list(set(y_train_code))

idx_to_code = [code for code in vocab_code]

code_to_idx = {code:i for i,code in enumerate(idx_to_code)}

y_train_idx = np.array([code_to_idx.get(t) for t in y_train_code] )

y_val_idx = np.array([code_to_idx.get(t) if t in vocab_code else code_to_idx["unknown"] for t in y_val_code] ) #测试中的数据若没有，标注为unknown类

#code_to_idx.get(t) code_to_idx[t] 方法都一样

四、建议

多思考，多尝试，这个问题在网站上并没有找到答案。

尝试这个：

https://stackoverflow.com/questions/21057621/sklearn-labelencoder-with-never-seen-before-values/48169252#48169252

查看全文

相关阅读:
Dijkstra-leetcode 743.网络延迟时间
 BFS-leetcode787 K站中转内最便宜的航班
 图论基础——单源最短路径问题
 DFS leetcode-547 朋友圈
 SpringBoot 使用注解向容器中注册Bean的方法总结
 SpringBoot对SpringMVC的支持
 数据源简介
 Spring MVC简介
 2020-2-10 Python 列表切片陷阱：引用、复制与深复制
 2020-2-2 语法糖

原文地址：https://www.cnblogs.com/yifanrensheng/p/13887587.html

【E-15-Xgboost】ValueError: y contains previously unseen labels: [169, 977, …]

一、问题源头

二、原因

三、解决方案

本文采用

四、建议