zoukankan      html  css  js  c++  java
  • 论文阅读 | Improving Neural Conversational Models with Entropy-Based Data Filtering

    论文地址 :https://www.aclweb.org/anthology/P19-1567/

    作者 : Richárd Csáky, Patrik Purgai, Gábor Recski

    机构 : Budapest University of Technology and Economics,Apollo.AI

    研究的问题:

    关注的是对话数据集的优化问题,用的是基于熵的方法。基于神经网络的对话模型,在开放式对话中,容易产生通用的回复,缺乏多样性。因而,本文通过剔除掉具有高熵值的对话语句,来修正数据集,进而提升对话系统的性能。

    研究方法:

    Intuition:为了处理数据集中“一对多”和“多对一”的问题,以往的研究有添加规则的,本文是直接选择删除一些数据。

    这里举了一个例子,一个高熵值的例子,如「what did you do today」,这个问句的答案会有很多种回复;而「what is the color of sky」的熵值就比较低,因为回复很明确。

    方法:在计算熵值的时候,对对话中的 source 和 target 做区分。给定数据集 D 时,Target 和 source 的熵值的定义如下:

     

     

    这里的概率当然就是用数据集中的观测到的频率来表示的。

    为了实现基于熵的过滤,首先对句子做了聚类的操作。聚类能反映出问句的回答是否是语义上的多样。比如「how old are you」,虽然答案也会有很多种,但语义上都是接近的。一个句子可能有低熵值,但是如果组成的 cluster 有高熵值,这个 cluster 也会从数据集中删除掉。

    聚类的方法,可以用 Mean shift algorithm,或者 sent2vec,即在word2vec的基础上拓展为句向量的方法。

    在mean shift algorithm算法中,一个话语U的表示的计算公式为:

     

    这里的E(w)是词的embedding,p(w)是词w的概率,所以也就是一句话中所有词按频率的倒数加权的词向量的平均值。

    一个 source cluster 的目标熵值定义如下:

     

    这里的C 是所有的 cluster的集合。在删除 cluster 时,高熵的 source cluster 和 target cluster 都会被删掉。

    实验部分:

    数据集DailyDialog,Cornell,Twitter

    模型:基于Transformer 的 encoder-decoder 架构。

    评估指标:长度、单词和句子的熵、KL散度、Embedding metrics(输入和输出之间词向量的平均值、极值比较)Coherence(输入和输出之间的余弦相似度)、Distinct metrics(Distinct-1、distinct-2)BLEU。

    三个数据集上的实验结果分别如下所示:

     

    总的来说,在三个数据集上都有一定提升,但在DailyDialog上的提升更加明显,原因可能在于Twitter是更开放的数据集,聚类的效果相对来说更差一些。

    评价:

    提出了一种数据预处理的方法,目的是去掉那些可能导致安全回答的句子,也就是在统计上熵更高的句子。其实这种方法并不是很新的方法,之前也见过类似的处理方法。不过本文更加系统地整理和扩展了一下,加入了聚类的方法来对整个类操作。由实验可以看到这个聚类所起到的作用还是比较明显的。在对话任务上数据的清洗是个很重要的步骤,可以解决大多数类型的bad case,所以这个方法还是挺有用的。另外本文只在对话任务上做了实验,在翻译任务上可能也会有作用。

  • 相关阅读:
    Codevs 2296 仪仗队 2008年省队选拔赛山东
    Codevs 1535 封锁阳光大学
    Codevs 1069 关押罪犯 2010年NOIP全国联赛提高组
    Codevs 1218 疫情控制 2012年NOIP全国联赛提高组
    Codevs 1684 垃圾陷阱
    洛谷 P1108 低价购买
    Vijos P1325桐桐的糖果计划
    Codevs 3289 花匠 2013年NOIP全国联赛提高组
    Codevs 2611 观光旅游(floyed最小环)
    C语言基础之彩色版C语言(内含linux)
  • 原文地址:https://www.cnblogs.com/bernieloveslife/p/12749091.html
Copyright © 2011-2022 走看看