zoukankan      html  css  js  c++  java
  • 多GPU训练bert

    概述

        做nlp的肯定都听说过bert了,它属于迁移学习,官方提供了通用语料bert预训练结果,通过微调,可以提高下游任务的准确率。但是bert使用的维基百科这类的通用语料,对特定领域的文本特征学的不是很好。例如我所在的医疗领域,bert并不能很好区分医学特征,此时就需要我们对自己的语料进行预训练。bert官方也提到利用fine-tune任务的语料进行预训练,能提高fine-tune任务的准确率。

    训练bert

        官方提供的bert是使用tpu集群训练的代码,他可以兼容单核GPU、多核CPU,如果你的机器有多个GPU,直接运行python run_pretraining.py,发现只能利用一个GPU。其实git上已经有人提供了多GPU版本,亲证是可行的,只需要将他的run_pretraining_gpu.py替换run_pretraining.py、optimization_gpu.py替换optimization.py即可,然后将modeling.py大概344行:assignment_map[name] = name修改assignment_map[name] = name_to_variable[name]就可以了。

    减小bert预训练结果大小

        bert的模型结果大概有1.2G,但是官方提供的预训练结果只有400多M,这是因为bert默认会保存adm优化器的中间参数,这个只是在训练时需要,在预测时只需要他的最终参数。网上提供了减小模型参数的方法:https://github.com/google-research/bert/issues/99,代码我不复制了。但是你多GPU的结果使用该方法发现并不可行,网上查了很多资料还是不行,最后想了一个笨办法。我在本地以多GPU的结果继续少量数据的run_pretraining.py训练(将init_checkpoint指定为GPU的ckpt),快速结束训练并保存结果数据。然后对该本地的结果数据使用前面的提到的代码,就能将模型压缩到400多M左右。该办法真的很暴力,大家如果发现了好的方法希望在留意区分享交流。

  • 相关阅读:
    【转】揭秘令牌桶
    各空白字符说明
    【转】Python正则表达式指南
    python的urlparse
    【转】HTTP Header 详解
    ElasticSearch(六)底层索引控制
    ElasticeSearch(五)分布式索引架构
    Elasticsearch(四)优化用户体验
    ElasticSearch(三)不仅仅是查询
    ElasticSearch(二) 关于DSL
  • 原文地址:https://www.cnblogs.com/foley/p/12838671.html
Copyright © 2011-2022 走看看