zoukankan      html  css  js  c++  java
  • 关于warm up(transformers.get_linear_schedule_with_warmup)

    基本使用

    transformers:2.10.0

    这里就不使用pytorch中的dataset和dataloader了,简单的模拟下:

    from transformers import AdanW, get_linear_schedule_with_warmup
    
    optimizer = AdamW(参数, lr=lr, eps=adam_epsilon)
    len_dataset = 3821 # 可以根据pytorch中的len(Dataset)计算
    epoch = 30
    batch_size = 32
    total_steps = (len_dataset // batch_size) * epoch if len_dataset % batch_size = 0 else (len_dataset // batch_size + 1) * epoch # 每一个epoch中有多少个step可以根据len(DataLoader)计算:total_steps = len(DataLoader) * epoch
    
    warm_up_ratio = 0.1 # 定义要预热的step
    scheduler = get_linear_schedule_with_warmup(optimizer, num_warmup_steps = warm_up_ratio * total_steps, num_training_steps = total_steps)
    

    为什么要使用warm up

    • 有助于减缓模型在初始阶段对mini-batch的提前过拟合现象,保持分布的平稳
    • 有助于保持模型深层的稳定性

    具体可以去看下知乎:https://www.zhihu.com/question/338066667

  • 相关阅读:
    day11
    day10
    day9
    day8
    day7
    day6
    day14
    day13
    day12
    day11
  • 原文地址:https://www.cnblogs.com/xiximayou/p/14836577.html
Copyright © 2011-2022 走看看