将迁移学习用于文本分类《 Universal Language Model Fine-tuning for Text Classification》

zoukankan html css js c++ java

将迁移学习用于文本分类《 Universal Language Model Fine-tuning for Text Classification》
将迁移学习用于文本分类《 Universal Language Model Fine-tuning for Text Classification》

2018-07-27 20:07:43 ttv56 阅读数 4552更多
分类专栏：自然语言处理
版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。
本文链接：https://blog.csdn.net/u014475479/article/details/81253506

本文发表于自然语言处理领域顶级会议 ACL 2018
原文链接
特别说明：笔记掺杂了本人大量的个人理解，以及口语化的语言，由于本人水平有限，极有可能曲解原文的意思，各位看官随意看看，切莫当真~

摘要

迁移学习在图像领域大放异彩，可是在NLP领域却用途寥寥，这是因为现有的NLP模型都与迁移学习不兼容，每次更新任务都需要重头开始训练模型，否则就会导致模型习得的语言特征灾难性地丢失。本文深知迁移学习才是NLP研究的新方向，故本文提出了一个新型的可以用于所有NLP任务的“超级模型”——ULMFiT ！！！！！！！经过严密实验，本文提出的ULMFiT模型吊打一切现有NLP分类模型，牛得一批！！！！！

模型介绍

假设我们有源任务 $T_{s}$

有了上述的宏伟理想，我们就要开始朝它努力了啊！
所以我们的模型必须要考虑到NLP任务的方方面面，这样才能打遍天下无敌手，所谓的“长文本语义依赖问题”，“各种粒度的语义分析”啊等等问题，都得考虑到，都是小菜一碟！

我们的模型分为两部分，其一就是一个语言模型。该模型是在一个大型的通用语料库上训练的，因为我们致力于做出一个通用的模型，所以我们的语料库大到你无法想象，反正就是超级大就对了，能够胜任NLP的所有任务！等该模型训练好之后，我们再对其进行微调就可以让其去解决不同的特定领域的问题啦！哈哈哈！！

说了那么多，我们的模型是啥呢？没错！当然是目前最先进的AWD-LSTM模型啦！（什么？不知道这模型是啥？百度啊？还指望我解释？！吔屎啦你！）

用通用的大到你无法想象的语料库训练完最先进的AWD-LSTM模型之后，我们接下来该做啥呢？没错！就是对该通用模型进行微调，然后让其适应于特定任务！那么该怎么微调呢？我们有两个独门秘笈：

Discriminative fine-tuning（为了让秘笈看上去更神秘就不翻译了）

具体而言, 就是为我们的模型的每一层分配不同的学习率, 参数更新时, 各层按照各自的学习率进行更新. 此处作者提出了一个技巧, 先通过只调整最后一层的参数确定一个合适的学习率, 然后往前的每一层都使用后一层学习率的2.6分之一倍.
（ $我也不知道为啥这么做效果会变好，原文也没说，看来独门秘笈果然是高深莫测$

Slanted triangular learning rates（不翻译，理由同上）

具体而言，是一种新型的学习率更新方式，由于采用该方式学习率的变化图形会像一个“三角形”一样，所以该秘笈的名字里也带了“triangular”。如图所示：

其中横轴是模型的迭代次数，纵轴是学习率。具体公式如下：

其中 $T$

(注：这些公式的数值是我根据上图方便读者理解从图中用肉眼读出来的，与原文实验无关)。

使用独门秘笈调整完咱们的通用模型之后是不是就万事大吉了呢？当然没有这么简单，要知道，本文的模型，牛逼到你无法想象！

我们接下来要将通用模型应用到特定的分类任务上，那么我们还得针对特定任务对模型增加两个全连接层，这俩全连接层都进行了normalization和dropout，激活函数采用Relu。最后再将这俩层接一个softmax的输出层，输出各个类别的概率就OK啦！

最后注意！咱们的整个流程中，只有最后的俩全连接层和输出层的参数是从零开始学习的！

还有一个问题，咱们的牛逼模型（AWD-LSTM）与最后俩全连接层咋连接呢？

考虑到文本分类问题中，每个句子内真正对分类有帮助的词语只有极少部分，所以我们必须充分的提取文本的信息才能达到比较好的效果，所以我们将牛逼模型（AWD-LSTM）的隐含层最终状态的输出 $h_{T}$

当然不够！

小小的 $h_{T}$
$h c = [h T, m a x p o o l (H), m e a n p o o l (H)]$
对最后全连接层的调参将极大的影响到我们的最终效果

因为如果调参过于狂野的话, 会导致我们牛逼模型（AWD-LSTM）习得的特征被灾难性地遗忘, 相当于前功尽弃。而如果我们过于调参过于细致的话, 算法的收敛速度又会大幅下降。这可咋办呢？别慌！我们还有秘笈！

Gradual unfreezing（不翻译，理由同上）
具体而言, 就是开始调参的时候，将除最后一层以外所有层的参数都给冻结 (就是设置参数不可更新), 然后再一步步向前一层解冻.
查看全文

相关阅读:
软工实践寒假作业（1/2）
软工总结
 软件工程第一次结对作业
 软工实践第一次个人编程作业
 软工实践第一次作业
 2019年北航OO第四单元（UML任务）及学期总结
 2019年北航OO第三单元（JML规格任务）总结
 用Maven+IDEA+Eclipse组合获得最好的OpenJML体验
 2019年北航OO第二单元（多线程电梯任务）总结
 2019年北航OO第一单元（表达式求导任务）总结

原文地址：https://www.cnblogs.com/think90/p/11635798.html

将迁移学习用于文本分类 《 Universal Language Model Fine-tuning for Text Classification》

将迁移学习用于文本分类 《 Universal Language Model Fine-tuning for Text Classification》

摘要

模型介绍

还有一个问题，咱们的牛逼模型（AWD-LSTM）与最后俩全连接层咋连接呢？

对最后全连接层的调参将极大的影响到我们的最终效果

将迁移学习用于文本分类《 Universal Language Model Fine-tuning for Text Classification》

将迁移学习用于文本分类《 Universal Language Model Fine-tuning for Text Classification》