今年五月份,我开始了对图像检索(基于内容)这一课题的学习。这篇文章总结了我这两个月所学到的关于图像检索的知识。
目前我们实验的模型是导师给出的,流程如下:
S1.提取图像库中所有图像的相应特征;
S2.对特征进行聚类;
S3.计算图片库中每张图片的对应“词汇”频率直方图。
上述流程生成的“词汇”频率直方图就当作是特征库。检索的流程如下:
S1.提取待查询的图像特征;
S2.计算待查询图像的“词汇”频率直方图;
S3.计算待查询图像“词汇”频率直方图与特征库中各个图像的“词汇”频率直方图的相似性;
S4.按S3计算出的相似性排序输出结果。
这种想法与文本检索有一定关系.至于词汇,我的理解是,特征点可以当作是一个词汇,聚类中心也可以当作是一个词汇.
在我们的初期实验中,图像特征用SIFT特征,聚类算法用k-means,距离度量用欧几里得距离,相似度计算用余弦相似性。实验的图像库是“256 object categories”中选出的399张图片,共有SIFT特征437941个.
下面是部分实验结果,k-means的k取20, 相似度取0.9,查询图片是网上找的ak47(左上角)。
结果还算OK,没有出现除ak47以外的其它图片。
我们的下一步计划是:
1.尝试SURF特征;
2.生成词汇时,考虑TF-IDF;
3.比对加入颜色信息后的结果;
4.考虑其它聚类算法,如DBSCAN。
附结果输出截图及图片库截图: