<5>bert 与 ALbert

zoukankan html css js c++ java

<5>bert 与 ALbert

ALbert第一作者蓝振忠解说：

ALBERT的提出就是为了给BERT瘦身，让模型更大的BERT有算力能跑起来。作者通过权值共享和矩阵分解减少参数。降低了空间复杂度，但计算量并没有减少，所以在模型进行下游任务和预测的时候并不会更快。所以作者说现在优化BERT的方法也是往时间复杂度的方向优化。

ALBERT的论文：

Lan Z, Chen M, Goodman S, et al. Albert: A lite bert for self-supervised learning of language representations[J]. arXiv preprint arXiv:1909.11942, 2019.

AlextNet之后，精度的提升大部分是由于网络深度的增加。下图来源于BERT的论文里，BERT同样做了把网络变宽和变深的实验，发现网络变宽和变深，精度会提升。

一、bert 提升宽度和深度，参数爆炸；

1>、increasing width

保持效率不降的基础上，降低参数量；

1、factorized embedding parametrization

大矩阵解压成两个小矩阵相乘 ——— 输入变量先降维，后升维，1》自由的把网络变宽；2》One-hot向量到第一次映射的参数非常多，可以把这块参数变的非常小

2、cross_layer parameter sharing

层的参数共享：即多个层使用相同的参数。参数共享有三种方式：只共享feed-forward network的参数、只共享attention的参数、共享全部参数all_shared、shared_attention ，ALBERT默认是共享全部参数的

和bert参数对比：1、parameter reduction 30%；2、3.5%的准确率提升；弊端 1、slower 3x in model

2> increasing depth 效果一般，不是很显著

removing dropout

ALbert的创新点及探索有效性：参数共享（improve the parameter efficiency），self_supervising

参考文章

从bert到ALbert

对albert的理解 - xixika的文章 - 知乎

ALBERT原理与实践，

天才是百分之一的灵感，加百分之九十九的汗水，但那百分之一的灵感往往比百分之九十九的汗水来的重要

查看全文

相关阅读:
SSIS: 使用Lookup 和 Cache transformation 进行数据匹配简单介绍
 Linux（Debain）环境安装WordPress
[转]Ubuntu 软件安装、查找、卸载--apt-get、apt-cache命令安全
 SSIS 实例从Ftp获取多个文件并对数据库进行增量更新。
SSIS DB目录设置（Integration Services Catalogs)
SSIS:捕获修改了的数据
 MSSQL:修改tempdb设置增加DW性能
 Mac下安装sbt
[转] linux下 /etc/profile、~/.bash_profile ~/.profile的执行过程
 [转] Spark-Sql On YARN自动调整Executor数配置

原文地址：https://www.cnblogs.com/Christbao/p/12337361.html