CV领域:图片的旋转、灰化、随机裁剪 -> 并不会改变其语义 => few shot learning、self-supervised learning。
NLP领域:改变sequence的顺序会改变语义。
词语替换
基于WordNet进行词语替换(近义词替换)。
词嵌入替代
基于相似度做词语的替换,相似度衡量方法有dot product、cosine similarity、Jaccard similarity等
gensim.Word2vec.most_similarity()
就是这种方法典型的应用。
TF-IDF 替代
TF-IDF分数较低的单词不能提供有用的信息,因此可以在不影响句子的ground-truth的情况下替换它们。
This virus has spread worldwide.
A virus has spread worldwide.
但这种方法的效果并不佳。
回译(Back Translation)
一种语言的句子翻译成另一种或多种语言,再翻译回来。
这种方法效果明显,但是缺点是需要较多的翻译模型,百度谷歌等提供翻译API接口可使用。
EDA:Easy Data Augmentation
- 随机插入(Insertion)
- 随机替换(Swap):同义词的随机替换
- 随机删除(Delete)
缺点:引入了噪声
自助式样本生成
(待完善)
其它方法
除了数据增强,还有一些其他方法可以弥补数据不足的问题:
-
Transfer learning
-
contractive learning