torch.utils.data.Dataset是一个抽象类,表示一个数据集。自定义的数据集要继承这个类,并且重写__len__和__getitem__方法。
__len__:len(dataset)返回数据集的size。
__getitem__:支持索引,dataset[i]用来获取第i个样本。
在__init__方法中读csv标签文件,在__getitem__方法中读图片,这样可以按需读取,而不用一次性把所有图片都存在内存中。
参考链接
https://pytorch.org/tutorials/beginner/data_loading_tutorial.html
https://discuss.pytorch.org/t/guidelines-for-assigning-num-workers-to-dataloader/813/24