zoukankan      html  css  js  c++  java
  • 【tensorflow2.0】优化器optimizers

    机器学习界有一群炼丹师,他们每天的日常是:

    拿来药材(数据),架起八卦炉(模型),点着六味真火(优化算法),就摇着蒲扇等着丹药出炉了。

    不过,当过厨子的都知道,同样的食材,同样的菜谱,但火候不一样了,这出来的口味可是千差万别。火小了夹生,火大了易糊,火不匀则半生半糊。

    机器学习也是一样,模型优化算法的选择直接关系到最终模型的性能。有时候效果不好,未必是特征的问题或者模型设计的问题,很可能就是优化算法的问题。

    深度学习优化算法大概经历了 SGD -> SGDM -> NAG ->Adagrad -> Adadelta(RMSprop) -> Adam -> Nadam 这样的发展历程。

    详见《一个框架看懂优化算法之异同 SGD/AdaGrad/Adam》

    https://zhuanlan.zhihu.com/p/32230623

    对于一般新手炼丹师,优化器直接使用Adam,并使用其默认参数就OK了。

    一些爱写论文的炼丹师由于追求评估指标效果,可能会偏爱前期使用Adam优化器快速下降,后期使用SGD并精调优化器参数得到更好的结果。

    此外目前也有一些前沿的优化算法,据称效果比Adam更好,例如LazyAdam, Look-ahead, RAdam, Ranger等.

    一,优化器的使用

    优化器主要使用apply_gradients方法传入变量和对应梯度从而来对给定变量进行迭代,或者直接使用minimize方法对目标函数进行迭代优化。

    当然,更常见的使用是在编译时将优化器传入keras的Model,通过调用model.fit实现对Loss的的迭代优化。

    初始化优化器时会创建一个变量optimier.iterations用于记录迭代的次数。因此优化器和tf.Variable一样,一般需要在@tf.function外创建。

    import tensorflow as tf
    import numpy as np 
     
    # 打印时间分割线
    @tf.function
    def printbar():
        ts = tf.timestamp()
        today_ts = ts%(24*60*60)
     
        hour = tf.cast(today_ts//3600+8,tf.int32)%tf.constant(24)
        minite = tf.cast((today_ts%3600)//60,tf.int32)
        second = tf.cast(tf.floor(today_ts%60),tf.int32)
     
        def timeformat(m):
            if tf.strings.length(tf.strings.format("{}",m))==1:
                return(tf.strings.format("0{}",m))
            else:
                return(tf.strings.format("{}",m))
     
        timestring = tf.strings.join([timeformat(hour),timeformat(minite),
                    timeformat(second)],separator = ":")
        tf.print("=========="*8,end = "")
        tf.print(timestring)
     
    # 求f(x) = a*x**2 + b*x + c的最小值
     
    # 使用optimizer.apply_gradients
     
    x = tf.Variable(0.0,name = "x",dtype = tf.float32)
    optimizer = tf.keras.optimizers.SGD(learning_rate=0.01)
     
    @tf.function
    def minimizef():
        a = tf.constant(1.0)
        b = tf.constant(-2.0)
        c = tf.constant(1.0)
     
        while tf.constant(True): 
            with tf.GradientTape() as tape:
                y = a*tf.pow(x,2) + b*x + c
            dy_dx = tape.gradient(y,x)
            optimizer.apply_gradients(grads_and_vars=[(dy_dx,x)])
     
            #迭代终止条件
            if tf.abs(dy_dx)<tf.constant(0.00001):
                break
     
            if tf.math.mod(optimizer.iterations,100)==0:
                printbar()
                tf.print("step = ",optimizer.iterations)
                tf.print("x = ", x)
                tf.print("")
     
        y = a*tf.pow(x,2) + b*x + c
        return y
     
    tf.print("y =",minimizef())
    tf.print("x =",x)
    ================================================================================10:50:09
    step =  100
    x =  0.867380381
    
    ================================================================================10:50:09
    step =  200
    x =  0.98241204
    
    ================================================================================10:50:09
    step =  300
    x =  0.997667611
    
    ================================================================================10:50:09
    step =  400
    x =  0.999690652
    
    ================================================================================10:50:09
    step =  500
    x =  0.999959
    
    ================================================================================10:50:09
    step =  600
    x =  0.999994457
    
    y = 0
    x = 0.999995172
    # 求f(x) = a*x**2 + b*x + c的最小值
     
    # 使用optimizer.minimize
     
    x = tf.Variable(0.0,name = "x",dtype = tf.float32)
    optimizer = tf.keras.optimizers.SGD(learning_rate=0.01)   
     
    def f():   
        a = tf.constant(1.0)
        b = tf.constant(-2.0)
        c = tf.constant(1.0)
        y = a*tf.pow(x,2)+b*x+c
        return(y)
     
    @tf.function
    def train(epoch = 1000):  
        for _ in tf.range(epoch):  
            optimizer.minimize(f,[x])
        tf.print("epoch = ",optimizer.iterations)
        return(f())
     
    train(1000)
    tf.print("y = ",f())
    tf.print("x = ",x)

    epoch = 1000

    y = 0

    x = 0.99999851

    # 求f(x) = a*x**2 + b*x + c的最小值
    # 使用model.fit
     
    tf.keras.backend.clear_session()
     
    class FakeModel(tf.keras.models.Model):
        def __init__(self,a,b,c):
            super(FakeModel,self).__init__()
            self.a = a
            self.b = b
            self.c = c
     
        def build(self):
            self.x = tf.Variable(0.0,name = "x")
            self.built = True
     
        def call(self,features):
            loss  = self.a*(self.x)**2+self.b*(self.x)+self.c
            return(tf.ones_like(features)*loss)
     
    def myloss(y_true,y_pred):
        return tf.reduce_mean(y_pred)
     
    model = FakeModel(tf.constant(1.0),tf.constant(-2.0),tf.constant(1.0))
     
    model.build()
    model.summary()
     
    model.compile(optimizer = 
                  tf.keras.optimizers.SGD(learning_rate=0.01),loss = myloss)
    history = model.fit(tf.zeros((100,2)),
                        tf.ones(100),batch_size = 1,epochs = 10)  #迭代1000次
     
    tf.print("x=",model.x)
    tf.print("loss=",model(tf.constant(0.0)))
    Model: "fake_model"
    _________________________________________________________________
    Layer (type)                 Output Shape              Param #   
    =================================================================
    Total params: 1
    Trainable params: 1
    Non-trainable params: 0
    _________________________________________________________________
    Epoch 1/10
    100/100 [==============================] - 0s 901us/step - loss: 0.2481
    Epoch 2/10
    100/100 [==============================] - 0s 940us/step - loss: 0.0044
    Epoch 3/10
    100/100 [==============================] - 0s 926us/step - loss: 7.6740e-05
    Epoch 4/10
    100/100 [==============================] - 0s 908us/step - loss: 1.3500e-06
    Epoch 5/10
    100/100 [==============================] - 0s 909us/step - loss: 1.8477e-08
    Epoch 6/10
    100/100 [==============================] - 0s 965us/step - loss: 0.0000e+00
    Epoch 7/10
    100/100 [==============================] - 0s 842us/step - loss: 0.0000e+00
    Epoch 8/10
    100/100 [==============================] - 0s 828us/step - loss: 0.0000e+00
    Epoch 9/10
    100/100 [==============================] - 0s 837us/step - loss: 0.0000e+00
    Epoch 10/10
    100/100 [==============================] - 0s 936us/step - loss: 0.0000e+00
    x= 0.99999851
    loss= 0

    二,内置优化器

    深度学习优化算法大概经历了 SGD -> SGDM -> NAG ->Adagrad -> Adadelta(RMSprop) -> Adam -> Nadam 这样的发展历程。

    在keras.optimizers子模块中,它们基本上都有对应的类的实现。

    • SGD, 默认参数为纯SGD, 设置momentum参数不为0实际上变成SGDM, 考虑了一阶动量, 设置 nesterov为True后变成NAG,即 Nesterov Acceleration Gradient,在计算梯度时计算的是向前走一步所在位置的梯度。

    • Adagrad, 考虑了二阶动量,对于不同的参数有不同的学习率,即自适应学习率。缺点是学习率单调下降,可能后期学习速率过慢乃至提前停止学习。

    • RMSprop, 考虑了二阶动量,对于不同的参数有不同的学习率,即自适应学习率,对Adagrad进行了优化,通过指数平滑只考虑一定窗口内的二阶动量。

    • Adadelta, 考虑了二阶动量,与RMSprop类似,但是更加复杂一些,自适应性更强。

    • Adam, 同时考虑了一阶动量和二阶动量,可以看成RMSprop上进一步考虑了Momentum。

    • Nadam, 在Adam基础上进一步考虑了 Nesterov Acceleration。

    参考:

    开源电子书地址:https://lyhue1991.github.io/eat_tensorflow2_in_30_days/

    GitHub 项目地址:https://github.com/lyhue1991/eat_tensorflow2_in_30_days

  • 相关阅读:
    Unity 状态机切换
    Unity3d 血条脚本
    最简单的Python群聊
    EFCore 多字段排序分页法
    搭建react+redux+vscode+typescript开发环境
    C# 4格A*自动寻径
    Sql删除表中多余的重复记录
    ABP弹出提醒用户的错误信息
    百度地图 驾车路线编辑粗浅实例
    .NetCore3.1 WebApi中Swagger配置
  • 原文地址:https://www.cnblogs.com/xiximayou/p/12689937.html
Copyright © 2011-2022 走看看