zoukankan      html  css  js  c++  java
  • <5>bert 与 ALbert

    ALbert第一作者蓝振忠解说:

    ALBERT的提出就是为了给BERT瘦身,让模型更大的BERT有算力能跑起来。作者通过权值共享和矩阵分解减少参数。降低了空间复杂度,但计算量并没有减少,所以在模型进行下游任务和预测的时候并不会更快。所以作者说现在优化BERT的方法也是往时间复杂度的方向优化。

    ALBERT的论文:

    Lan Z, Chen M, Goodman S, et al. Albert: A lite bert for self-supervised learning of language representations[J]. arXiv preprint arXiv:1909.11942, 2019.

     

     AlextNet之后,精度的提升大部分是由于网络深度的增加。下图来源于BERT的论文里,BERT同样做了把网络变宽和变深的实验,发现网络变宽和变深,精度会提升。

    一、bert 提升宽度和深度,参数爆炸;

    1>、increasing width

    保持效率不降的基础上,降低参数量;

    1、factorized embedding parametrization

    大矩阵解压成两个小矩阵相乘 ——— 输入变量先降维,后升维,1》自由的把网络变宽;2》One-hot向量到第一次映射的参数非常多,可以把这块参数变的非常小

    2、cross_layer parameter sharing

    层的参数共享:即多个层使用相同的参数。参数共享有三种方式:只共享feed-forward network的参数、只共享attention的参数、共享全部参数all_shared、shared_attention ,ALBERT默认是共享全部参数的

    和bert参数对比:1、parameter reduction 30%;2、3.5%的准确率提升;弊端 1、slower 3x in model

    2>  increasing depth 效果一般,不是很显著

    removing dropout

    ALbert的创新点及探索有效性:参数共享(improve the parameter efficiency),self_supervising

     

    参考文章

    从bert到ALbert

    对albert的理解 - xixika的文章 - 知乎 

    ALBERT原理与实践

    天才是百分之一的灵感,加百分之九十九的汗水,但那百分之一的灵感往往比百分之九十九的汗水来的重要
  • 相关阅读:
    jmeter-CSV Data Set Config
    阿里云linux安装jmeter并进行压测
    HTTP基本认证和JWT鉴权
    Jmeter处理cookie
    Jmeter中一些概念的理解——90%响应时间、事务、并发
    Jmeter使用吞吐量控制器实现不同的用户操纵不同的业务
    Jmeter实现从csv文件中随机读取数据
    Jmeter解决乱码问题
    Docker简介
    docker-compose搭建wordpress[转]
  • 原文地址:https://www.cnblogs.com/Christbao/p/12337361.html
Copyright © 2011-2022 走看看