1. 多标签(multi-label)数据的学习问题,常用的分类器或者分类策略有哪些?
依据解决问题的角度,算法可以分为两大类:
一是基于问题转化(Problem Transformation)的方法。
基于问题转化的多标记分类是转化问题数据,使之适用现有算法。代表性学习算法LP[[1]],Binary Relevance[[2]],Calibrated Label Ranking[[3]], Random k-labelsets[[4]]。
总体来说,这类方法有考虑类标之间的联系,但是对于类标较多、数据量较大的数据集,这类方法的计算复杂度是一个很明显的缺陷。
二是基于算法适应的方法和算法适应方法(Algorithm Adaptation)。基于算法适应的方法是指针对某一特定的算法进行扩展,从而能够直接处理多标记数据,改进算法,适应数据。
代表性学习算法ML-kNN[[5]],Rank-SVM[[6]],LEAD[[7]],CML。
基于考察标记之间相关性的不同方式,已有的多标记学习算法的策略思路大致可以分为以下三类:
a) “一阶(first-order)”策略:该类策略通过逐一考察单个标记而忽略标记之间的相关性,如将多标记学习问题分解为个独立的二类分类问题,从而构造多标记学习系统。该类方法效率较高且实现简单,但由于其完全忽略标记之间可能存在的相关性,其系统的泛化性能往往较低。
b) “二阶(second-order)”策略:该类策略通过考察两两标记之间的相关性,如相关标记与无关标记之间的排序关系,两两标记之间的交互关系等等,从而构造多标记学习系统。该类方法由于在一定程度上考察了标记之间的相关性,因此其系统泛化性能较优。
c)
“高阶(high-order)”策略:该类策略通过考察高阶的标记相关性,如处理任一标记对其它所有标记的影响,处理一组随机标记集合的相关性等等,从而构造多标记学习系统。该类方法虽然可以较好地反映真实世界问题的标记相关性,但其模型复杂度往往过高,难以处理大规模学习问题。
2.