一、目标问题
字符识别,十分类问题(字符取值范围0-9),在任意分辨率图像上进行目标检测。如下图,样本集40000+图片,来源自Google街景图像中的门牌号数据集(The Street View House Numbers Dataset, SVHN),并根据一定方式采样得到比赛数据集。该数据来自真实场景的门牌号。训练集数据包括3W张照片,验证集数据包括1W张照片,每张照片包括颜色图像和对应的编码类别和具体位置。
所有的数据(训练集、验证集和测试集)的标注使用JSON格式,并使用文件名进行索引。如果一个文件中包括多个字符,则使用列表将字段进行组合。
Field | Description |
---|---|
top | 左上角坐标X |
height | 字符高度 |
left | 左上角最表Y |
width | 字符宽度 |
label | 字符编码 |
博文中所有出现的代码仅适用于 pytorch1.3.1 torchvision0.4.2,以下指令作为参考。

1 conda create -n py37_torch131 python=3.7 2 source activate py37_torch131 3 conda install pytorch=1.3.1 torchvision=0.4.2 cudatoolkit=10.0
要是没有梯子,或者安装太慢,建议去去官方源链接手动下载,然后用conda insatll xxx.whl 手动安装驱动。
anaconda官方源链接: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/linux-64/
清华源链接:https://download.pytorch.org/whl/torch_stable.html
比如:我这里下载的文件名为:cu101/torch-1.3.1-cp37-cp37m-win_amd64.whl ,从名字可以看出来torch版本为1.3.1,和cuda10.1绑定在一起,适用于python
最低版本3.7,适用于windows-x64系统。使用以下指令验证版本:
1 import torch 2 import torchvision 3 4 print(torch.version.cuda) 5 print(torch.__version__) 6 print(torchvision.__version__)
结果是:
10.1 1.3.1 0.4.2
三、结果提交
提交前请确保预测结果的格式与sample_submit.csv中的格式一致,以及提交文件后缀名为csv。
1 file_name, file_code 2 0010000.jpg,451 3 0010001.jpg,232 4 0010002.jpg,45 5 0010003.jpg,67 6 0010004.jpg,191 7 0010005.jpg,892
写在最后,此时此刻是2020年八月份。据我查询资料,凡是安装深度学习python库,几乎所有的博客都提到去NVIDIA官网下载CUDA和cuDNN。根据实践,我在一台显卡为RTX2060的台式机上并没有去官网下载CUDA和cuDnn并安装,而是按照本博客前面所述,仅仅使用conda或者pip安装了python版本的cuda,一样有加速效果,40000张图片,训练时间大概两个半小时,具体见下篇博客。