要用到无标签的数据就要给无标签的数据造一个监督训练的目标,常用的造目标的方法:
- Pseudo-labeling 可以用现有的数据训练模型,在用模型跑无标签的数据得到一个假的label,用无标签数据和假的label 帮助训练模型,最后再用有label数据finetune
- data augmentation 通过对数据做变换,得到和原始数据相近的数据(simCLR),用一致性,或一些其他的指标让网络学习对数据的表征能力; 图像中常见的data augmentation (crop/mixup/rotate/color distorsion/ blur/),语音中常见的变换(调节语速/pitch/gain/加噪声/mixup/spec augment);还有一些用adversarial 的方式生成新的数据(VAT)
- 用数据本身作为label, 如nlp中bert 用denoising 的方式 或 用前一段信息作为特征,用后面的信息作为预测label 等