-
Byte Pair Encoding is Suboptimal for Language Model Pretraining
主要比较bpe算法和unigram LM tonkenize算法的优劣,主要结论是LM tonkenize算法更优 -
Author2Vec: A Framework for Generating User Embedding
用作者发布的文章信息提取作者向量,bert提文章信息,然后contact最后几层的cls,用gru将这些文章向量编码,之后通过k-sparseEncoding编码成向量,最后用作者的分类任务进行pretrain。不太理解为什么用gru进行编码,作者文章信息的编码的顺序这么定? -
Cross-lingual Language Model Pretraining
有同事在做这方面工作所以稍微浏览下,主要做多语言bert的bert语言模型,主要工作包括用多语言的语料训练一个单独的bpe词表。提出三个训练目标函数:CLM 知道前面的词预测下一个词 ;MLM 预测mask后的词是什么 ;TLM 采用平行语料构+language embding建的MLM object 。效果是在一些评测集上取得了较好的指标,并且能够提升一些低资源语言的性能。 这种方法如果比单语言的bert好或许能说明各个语言之间也有一些共性。 -
unsupervised Domain Clusters in Pretrained Language Models
任务是:domain data selection 即给少量的领域语料,从大量语料中提取该领域的语料。其实就是句子的聚类,作者用bert 、gpt2、xlnet、等模型的最后一层的average pooling 作为句子向量,在某个带标签的数据集上用pca和聚类算法进行聚类,再用纯度作为指标比较各个方法,实验效果是bert优于w2v优于lda。在提取领域语料时,先将句子编码成向量,可以cosine聚类直接提取,也可以用finetune的二分类任务来做,其中领域语料为正例,大语料中根据cosine距离筛选出一部分采样作为负例