zoukankan      html  css  js  c++  java
  • Yuan1.0论文笔记

    Yuan-1.0论文笔记

    模型架构

    LM

    transformers的decoder,生成类任务效果较好,理解类效果较差,原因在于生成的token只依赖之前的单词,会对后面进行结构掩蔽

    PLM

    生成一个可见的注意力掩蔽,所以在NLG和NLU任务表现都很好

    并行策略

    张量并行

    在张量并行算法中,模型的层次在节点内的设备之间进行划分。张量并行度的原理如图2所示。在Transformer中,注意和多层感知器(MLP)的张量在向前和向后计算时按行或列分割。输入张量被广播到每个加速器,进行正向传播。当Attention或MLP的前向传递完成时,执行全减少。然后在所有设备上更新结果并发送到下一层。在每一层的前向和后向传播中有四个全约简操作。

    一句话概括就是把张量分配到多个设备上去算

    流水线并行

    数据并行

    增加了全局批处理

    下游任务

    Text Classfication

    Eprstmt: 情感分类,二分类问题

    Tnews, Iflytek and Csldcp:多分类问题

    标签在文档末尾,连接提示词

    Winograd Schema task

    一个确定代词指代哪个名词的歧义任务,本质上还是二分类问题

    Natural Language Inference

    Ocnli和Bustm数据集,判断两个句子,前者是不是后者的前提,后者是不是前者的假设

    交叉熵损失

    Reading Comprehension

    Chid数据集:中文习语,挖空填词

    Csl数据集:一个摘要和四个关键词,判断关键词是否都和摘要一致,可以看作二分类问题

    交叉熵损失

    Gereration tasks

    CMRC2018:根据问题去文档中提取含有答案的相关句子

    WebQA:单纯QA

    EM和F1是评测指标

  • 相关阅读:
    Spring框架基本应用
    hibernate 多表查询
    myeclipse 中解决Hibernate 和Struts 2的冲突
    新建一个Tomcat服务器
    hibernate连接数据库
    MyEclipse从数据库逆向生成Hibernate实体类
    Struts 2 标签
    struts 2 框架的应用
    AutoIt: WinGetClassList可以把当前窗口所有的handle全部列出来
    自动化测试建议【转载,与我的想法完全雷同】
  • 原文地址:https://www.cnblogs.com/Thewillman/p/15785184.html
Copyright © 2011-2022 走看看