同时打乱数据集和标签的几种方式

最好先将数据转换为numpy数组的格式。

方法一：使用np.random.shuffle

state = np.random.get_state()
np.random.shuffle(train)
np.random.set_state(state)
np.random.shuffle(label)

或者这么使用：

需要注意的是，如果数组类型是：['a','b','c','d']，(4,)

我们要先将其转换为[['a'],['b'],['c'],['d']]，(4,1)

 train_row = list(range(len(train_label)))
 random.shuffle(train_row)
 train_image = train_image[train_row,:]
 train_label = train_label[train_row,:]

方法二：使用np.random.permutation()

shuffle_ix = np.random.permutation(np.arange(len(train_data)))
train_data = train_data[shuffle_ix,:]
train_label = train_label[shuffle_ix,:]

方法三：使用pytorch中的Dataset，还可以设置batchsize的大小

dataset = torch.utils.data.TensorDataset(data, target)      # 设置数据集
train_iter = torch.utils.data.DataLoader(dataset, batch_size, shuffle=True) # 设置获取数据方式

举个例子：

import numpy as np
tes = np.array([['a'],['b'],['c'],['d']])
shuffle_ix = np.random.permutation(len(tes))
shuffle_ix = list(shuffle_ix)
print(shuffle_ix)
tes = tes[shuffle_ix,:]

[1, 3, 0, 2]

array([['b'],
       ['d'],
       ['a'],
       ['c']], dtype='<U1')

参考：

https://blog.csdn.net/sinat_38682860/article/details/108813209

查看全文

相关阅读:
洛谷P3796 【模板】AC自动机（加强版）（AC自动机）
洛谷P3203 [HNOI2010]弹飞绵羊（LCT,Splay）
洛谷P1501 [国家集训队]Tree II（LCT,Splay）
LCT总结——概念篇+洛谷P3690[模板]Link Cut Tree(动态树)（LCT，Splay）
[BZOJ3172][TJOI2013]单词 AC自动机
 [BZOJ1968][AHOI2005]COMMON约数研究数学
 [BZOJ1053][SDOI2005]反素数ant 数学
 [BZOJ1045][HAOI2008]糖果传递数学
 [BZOJ2733][HNOI2012]永无乡线段树合并
 [BZOJ1005][HNOI2008]明明的烦恼数学+prufer序列+高精度

原文地址：https://www.cnblogs.com/xiximayou/p/13763027.html