zoukankan      html  css  js  c++  java
  • 文本领域数据增强技术

    CV领域:图片的旋转、灰化、随机裁剪 -> 并不会改变其语义 => few shot learning、self-supervised learning。

    NLP领域:改变sequence的顺序会改变语义。

    词语替换

    基于WordNet进行词语替换(近义词替换)。

    词嵌入替代

    基于相似度做词语的替换,相似度衡量方法有dot product、cosine similarity、Jaccard similarity等

    gensim.Word2vec.most_similarity()就是这种方法典型的应用。

    TF-IDF 替代

    TF-IDF分数较低的单词不能提供有用的信息,因此可以在不影响句子的ground-truth的情况下替换它们。

    This virus has spread worldwide.

    A virus has spread worldwide.

    但这种方法的效果并不佳。

    回译(Back Translation)

    一种语言的句子翻译成另一种或多种语言,再翻译回来。

    这种方法效果明显,但是缺点是需要较多的翻译模型,百度谷歌等提供翻译API接口可使用。

    EDA:Easy Data Augmentation

    1. 随机插入(Insertion)
    2. 随机替换(Swap):同义词的随机替换
    3. 随机删除(Delete)

    缺点:引入了噪声

    自助式样本生成

    (待完善)


    其它方法

    除了数据增强,还有一些其他方法可以弥补数据不足的问题:

    • Transfer learning

    • contractive learning

  • 相关阅读:
    SQLAlchemy教程-第二章-SQL常用查询的ORM写法
    弹性数组
    C++模板
    typedef 函数名
    typedef 函数指针
    备忘录:“#ifdef __cplusplus extern "C" { #endif”的定义
    linux mmap 内存映射
    生成模型与判别模型(转)
    DL反向传播理解
    UFLDL(Unsupervised Feature Learning and Deep Learning)
  • 原文地址:https://www.cnblogs.com/elisha/p/14024903.html
Copyright © 2011-2022 走看看