《比 Bert 体积更小速度更快的 TinyBERT》腾讯技术工程 - 走看看

zoukankan html css js c++ java

《比 Bert 体积更小速度更快的 TinyBERT》腾讯技术工程
文章地址：https://zhuanlan.zhihu.com/p/94359189

笔记：
```
模型size=1/7；
推理耗时=1/9；
性能会轻微损失；GLUE下降3个点（BERT-PKD，DistilBERT下降7/8个点）；
三个loss：embedding loss（输入，mes），transformer loss（每隔几个，attention和hidden states，两部分mse），prediction loss（根据任务定制，通常是softmax交叉熵）
也可以二阶段：General/Domain-specific Learning，Task-specific Learning
```
论文地址： https://arxiv.org/abs/1909.10351

代码地址：https://github.com/huawei-noah/Pretrained-Language-Model/tree/master/TinyBERT

一些讨论：https://github.com/huawei-noah/Pretrained-Language-Model/issues
找我内推：字节跳动各种岗位
作者： ZH奶酪(张贺)
邮箱： cheesezh@qq.com
出处： http://www.cnblogs.com/CheeseZH/
* 本文版权归作者和博客园共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出原文连接，否则保留追究法律责任的权利。
查看全文

相关阅读:
C语言memmove()函数：复制内存内容（可以处理重叠的内存块）
boot简介
 MT6753/MT6755 呼吸灯功能添加
 MT6753 使用nt35596s 由于液晶极化出现的闪屏问题解决思路
 MTK平台释疑android M 配置中断相关问题
 MT6755 平台手机皮套驱动实现
 MTK平台 GPU 相关知识
 MTK平台如何定位显示花屏和界面错乱等绘制异常的问题？
【Python】注释
 【Linux】.gz文件压缩与解压缩命令

原文地址：https://www.cnblogs.com/CheeseZH/p/14473021.html

Copyright © 2011-2022 走看看