论文阅读
Retrieving Aerial Scene Images with Learned Deep Image-Sketch Features
关键词: sketch, aerial image retrieval, multi scale, deep cross-domain model
论文的数据库来自作者的一个团队:an aerial sketch-image database Aerial-SI,已经有了一个 素描-航拍的图像数据库。
Multi-scale deep model for cross-domain feature extraction, 使用多个scale来从deep model里面得到 cross-domain feature。
2, Data Augmentation
关于预处理数据集,因为 the size of database is too small, data augmentation to reduce over-fit.
将所有的image都resize到固定的大小,256X256, 然后在上面采9个227X227 的patches, 同时对每一个patch进行翻转。通过这种方法,可以从一张图就可以获取18张image。
Resize method is bilinear interpolation.
3,Training Cross-Domain Model
利用神经网络来建立sketch 与 aerial image之间的gap之间的联系是一件困难的事。
使用 在imagenet上pretrain的model AlexNet,因为数据的有限,所以在实验中只是fine-tune fc 到 conv5 之间的layers。
4, Building a Multi-Scale Network
对于一张给定的素描image,首先使用AlexNet提取出strokes,根据不同levels的得到top 20%,40%,和80%的sketch images。
使用 rolling guidance filter(RGF) 得到不同模糊比例大小的边界保留image。
5, sketch-based aerial image retrieval 。 其中从Aerial-SI选择10个categories,为了简单的实验。
使用 edgelink tool来获取 sketch 的 strokes。
Experiment Baseline
(1), GIST
使用GIST描述算子,来表示aerial image和query sketches,然后比较它们之间的欧几里得距离。
(2)BoW
Bag-of-words是一个高效提取信息的描述算子,使用Dense-SIFT来结合BoW来表示图片,然后对于使用 histogram intersection pyramid matching kernels来比较。
(3), SIFT+ SPM
使用三层level的Dense-SIFT描述算子来得到features,使用200虚拟词汇,所以那些images可以表示为4200维度的feature,
同样,相似度使用histogram intersection来衡量。
(4),GF-HOG
HOG(histogram of oriented gradients) 是一种很强的特征提取算法。使用gradient field HOG结合 BoW来表示images,就是 GF-HOG,
(5),GoogleNet
使用GoogleNet的average pool layer拿来作为 cross-domain feature.
最后的实验比较:
总结: 这个方向是适用性很强。根据素描图像,来从航拍图像中找到结果。
但是: 整篇论文的创新性较小。没有很大的亮点。