zoukankan      html  css  js  c++  java
  • Evaluating Style Transfer for Text 阅读

    发表在 NAACL 2019

    MOTIVATION

    在这之前,对于文本风格迁移后的效果没有一个很好的统一评价指标,因此,这篇文章做了一个总结,基于之前的一些工作提出从 style transfer intensity 、content preservation、 naturalness 这三个方面来考量,并在content preservation 上提出了一个新的方法 即使用 mask 来掩盖掉 style words ,另外提出了自己的 automated evaluation(Earth Mover's Distance、Word Mover's Distance),能够更好地对迁移后的效果做出评价。

    作者主要是对之前的三篇文章提出的模型评价指标进行了一个总结

    • CAAE : Style transfer from non-parallel text by cross-alignment. (Shen et al 2017)
    • ARAE : Adversarially regularized autoencoders. (Zhao et al 2018)
    • DAR : Delete, retrieve, generate: a simple approach to sentiment and style transfer. (Li et al 2018)

    其中,HRC 是 human raters 通过连续量化来评价的(如:1-5 范围评分);

    ​ HRD 是在做 sentiment(positive/negative)任务时的评价指标

    ​ HRR 是 human raters 用来评价输出 x' 与输入 x (most to lest similar)

    ​ SC 是一个 style classifier

    ​ BLEU 是机器翻译任务中常用的评价指标

    ​ PPL 是评判句子的混乱度

    METHODS

    1. Construction of Style Lexicon(词典(专用词汇))

      在对内容失真度进行评价时,常常会去掉代表句子风格的词,那么在很多时候如何去确定具体的属性词时,会出现很多的分歧,特别是当人工来评价时,会带有主观的想法,因此,作者提出构建一个带标签样式的词典,来更好的区分属性词;另一方面,我们几乎不可能完全把属性词与内容词完全分开,所以要进行一个权衡,选择更高的准确率(precision)和更低的召回率(Recall)来降低移除内容词的风险

    2. Human Evaluation

      在这之前一般都是邀请相关的语言学专家只对输出的句子 x' 来进行评判打分,但来自其他领域的现有研究表明,对两个相对的句子比较打分,比只对一个句子打分要更加可靠和精准,因此,作者用 relative scoring 来代替之前的 absolute scoring

      • Style Transfer Intensity

        改变之前只对输出的结果打分,改成对输入和输出一起打分(同样也适合多情感风格任务)

      • Content Preservation

        由于并不是所有的打分者都能很好的区分属性词,作者提出了一个新方法,根据之前构建的词典来 mask 掉属性词,让打分者只专注于内容部分

      • Naturalness

        改变之前只对输出结果进行打分,而完全不考虑 x 的方法,让打分者来区分 x 和 x' ,如果打分者任务 x' 更好,则说明模型取得了一定的成功,因为它可以欺骗评估者

    3. Automated Evaluation

      • Style Transfer Intensity

        不仅计算有多少实现了从源语言到目标语言,还使用 Earth Mover's Distance 来计算从 x 分布到 x’ 分布的最小代价(主要是通过分类器(fastText & textcnn)来判别)

      • Content Preservation

        两种方式:

        1. style removal : 通过构建得词典来移除属性词
        2. style masking :将属性词用 customstyle 来代替

        评价标准:

        • BLEU
        • METEOR : METEOR的最终评价基于块(chunk)的分解匹配和表征分解匹配质量的一个调和平均,并包含一个惩罚系数 ,和BLEU不同,METEOR同时考虑了基于整个语料库上的准确率和召回率,而最终得出测度
        • Embed Average
        • Greedy Match(计算相似度)
        • Vector Extrema
      • Naturalness

        对样本x 和 x‘, 训练一个 unigram 和 neural logistic regression 分类器,通过对抗分类器(判别器)需要将人为得输入和机器产生的输出区分开,如果输出的句子越自然,则越容易欺骗分类器。

        计算每种类型的人工评价和分类器的一致性的比例

      源代码:https://github.com/passeul/style-transfer-model-evaluation

  • 相关阅读:
    JAVA 问题
    WebStrom配置多个项目的Dweployment时,设置默认的启动配置
    C#中有关数组和string引用类型或值类型的判断
    Delegate(代理)异常:该委托必须有一个目标
    RMAN BACKUP
    Oracle ORA-01033: 错误解决办法
    微信公众号开发 接口配置信息 配置失败
    使用JAVA开发微信公众平台(一)——环境搭建与开发接入
    微信开发准备(四)--nat123内网地址公网映射实现
    nat123安装启动教程帮助
  • 原文地址:https://www.cnblogs.com/alivinfer/p/13368687.html
Copyright © 2011-2022 走看看