现在网络上关于深度学习算法的文章很多,但深度学习其实是数据驱动型。很多时候数据足够好,能给算法开发提供很大的便利。
因此,本文主要讲解数据标注。文章共两个部分:(1)数据标注综述(2)数据标注实践要点
本文是第二部分:数据标注实践要点。本文可能会帮助读者更直观的认识对图片标注中的问题。
1、要点来源
本文的标注要点来源于图像标注专家Adela Barriuso的标注笔记。她于2007年开始使用labelme系统地标注SUN数据库,标注了 超过25万个物体。笔记记录了标注过程中曾遇到的困难和采用的解决方案,以便得到一致性高的注释。
Adela Barriuso在西班牙的一家服装店里进行数据标注,这就是传说中的大隐隐于市吗?哈哈。
2、标注笔记
下面整理出Adela Barriuso在数据标注中的心得。
- 在标注图像时,首先对图像进行整体的评估,衡量标注难度。有些乍一看标注难度较大的图像,实际上图中的元素很少,很容易标记。
- 标注时,通常由大到小进行标注。比如开放空间中先标注天空,封闭空间内先标注天花板,然后再继续添加其他东西。
- 标记的顺序不重要,但标注时最好一行行进行,将一行内所有类型相同的对象全都标注上,降低标签写错的可能。
- 一般不标注镜子里反射的物体,这很容易造成误导。
- 在图像中有很多线条性物体时(如下图中的扶手和栏杆),需要特别注意,有可能标注出与所需完全相反的内容(即孔内被标记为对象),标注线在同一个位置经过两次是正常的,刻意避免可能会出现上述情况。
- 标注图像中出现打开的门窗等情况时,不仅仅要标注门窗,也应将门窗内的物体也标注上,这有助于增加深度感。
- 标注时的标注线条要好看一些,尽量避免弄成一块一块的
- 像下图中的这种过于复杂的图片,如果你对图中的内容不够熟悉,就干脆跳过去。
- 如果一个物体被另一个物体遮挡,在给两个物体做标注时给两个物体贴上标签,确保它们的边缘重合。
- 在进行标注时有时需要放大和缩小,放大有助于标注一些小细节,但放大有可能造成错乱。有些东西的局部放大后变得像其他物体。因此在标注之后需缩放至原始大小进行审核。
- 标注室内空间时,一般单独标记不同方向的墙,即便它们是相互连接的。
- 在下图中,图像的复杂性是由于墙壁和拱门形成的不同深度平面造成的,在标记时需要给拱门内的元素进行标记。首先从两堵墙开始,然后给墙壁和容易分辨的大物体进行标注,最后再去标注小的一些细节。有时候遗漏是不可避免地
- 有时候某些容器是透明的,比如透明的容器内装着一些饼干,这时候是标注“容器”还是“饼干”呢?一般标注为容器,重点在于要保持标注原则的前后一致。
- 有时候标注标签并非自己的母语,当标注的目标物种类较多时,一定要建立一个标签的对应关系,方便查找,如bed:床
Reference
Barriuso A, Torralba A. Notes on image annotation[J]. arXiv preprint arXiv:1210.3448, 2012.