zoukankan      html  css  js  c++  java
  • 自编码器

    自编码器论文的提出是为了神经网络权重更好的初始化,他将多层网络一层一层的通过自编码器确定初始权重,最终再对模型进行权重训练;

    这种初始化权重的方式目前已经不是主流,但他的思路可以借鉴到很多场景;

    模型简介

    自编码器,AutoEncode,它分为两部分,前一部分是编码器,后一部分是解码器,

    它的原理非常简单,就是把输入 通过编码器编码,然后再通过解码器解码,使得解码后的数据与输入尽可能一致;

    它的输入输出都是数据本身,如图

    由于自编码器算法没有用到 数据的 label,所以可以视为一种无监督学习

    自编码器种类

    自编码器有很多种,区别在于

    1. 网络结构不同:全连接、卷积,深层、浅层

    2. 给自编码器网络加上一些约束,使得输入与输出不完全一致,只近似的复制输入,这样我们可以实现优先复制数据的部分特征

    栈式自编码器

    很简单,就是多隐层的网络,如图

    注意:网络不要太深,过深的网络也是能够解码成原图的,但是把图像压缩得很小,比如一个数,这对于其他应用,比如特征提取,没什么意义了,压缩太狠了 

    不完备自编码器

    输入维数大于编码后的维数,也就是降维,类似于 PCA,但效果比 PCA 好

    去燥自编码器

    输入有噪声的图像,训练的 ‘label’ 为无噪声的图像,实现图像去燥

    使用场景

    通常情况下,自编码器网络训练好之后,我们只取编码器部分的权重;

    特征提取

    由于编码后的特征能够通过某种方式解码成原始数据,说明该特征能够很好的代表原始数据,

    降维

    一般情况下,输入的维度会大于编码后的维度,这达到降维的作用

    图像降噪

    输入有噪声的图像,模型的 ‘label’ 是无噪声的图像

    图像压缩

    图像太大,输入维度过高,模型收敛慢,且从过多信息中学习特征是比较困难的,压缩之后轻松愉快

    算法特点

    1. 有损压缩:压缩后的信息少于原始信息,且不可恢复

    2. 数据相关:自编码器模型只适用于和训练数据相关的数据,比如人脸的自编码器不能用于汽车

    示例

    import numpy as np
    import sklearn.preprocessing as prep
    import tensorflow as tf
    from tensorflow.examples.tutorials.mnist import input_data
    
    
    # xavier initializaton参数初始化方法
    def xavier_init(fan_in, fan_out, constant=1):
        low = -constant * np.sqrt(6.0/(fan_in+fan_out))
        high = constant * np.sqrt(6.0/(fan_in+fan_out))
        return tf.random_uniform((fan_in, fan_out), minval=low, maxval=high, dtype=tf.float32)
    
    class AdditiveGaussianNoiseAutoEncoder(object):
        def __init__(self, n_input, n_hidden ,transfer_function=tf.nn.softplus,
                     optimizer=tf.train.AdamOptimizer(), scale=0.1):
            # 1,定义一些必需的参数
            self.n_input = n_input          # 输入
            self.n_hidden = n_hidden        #
            self.transfer = transfer_function
            self.scale = tf.placeholder(tf.float32)
            self.training_scale = scale
            networks_weights = self._initialize_weigths()
            self.weights = networks_weights
    
            # 2,定义网络结构 三层网络
            self.x = tf.placeholder(tf.float32, [None, self.n_input])       # 图片拉成一维
            # 隐层输出:activeFunc((x+noise)*w1+b1)
            self.hidden = self.transfer(tf.add(tf.matmul(self.x + scale * tf.random_normal((n_input,)) , self.weights['w1']), self.weights['b1']))
            # output:hidden*w2+b2
            self.reconstruction = tf.matmul(self.hidden,self.weights['w2'])+self.weights['b2']
    
            # 3,定义损失函数和优化器
            ### self.reconstruction-self.x 解码后的图像-原图
            self.cost = 0.5 * tf.reduce_sum(tf.pow((self.reconstruction - self.x), 2.0)) / 128
            self.optimizer = optimizer.minimize(self.cost)
    
            # 4,全局参数初始化
            init = tf.global_variables_initializer()
            self.sess = tf.Session()
            self.sess.run(init)
    
        def _initialize_weigths(self):
            all_weigths = dict()
            all_weigths['w1'] = tf.Variable(xavier_init(self.n_input,self.n_hidden),dtype=tf.float32)
            all_weigths['b1'] = tf.Variable(tf.zeros([self.n_hidden],dtype=tf.float32))
            all_weigths['w2'] = tf.Variable(tf.zeros([self.n_hidden,self.n_input]),dtype=tf.float32)
            all_weigths['b2'] = tf.Variable(tf.zeros([self.n_input],dtype=tf.float32))
            return all_weigths
    
        def partial_fit(self, X):
            # 当前 cost
            cost,opt = self.sess.run([self.cost, self.optimizer], feed_dict={self.x:X, self.scale:self.training_scale})        ### 两个 placeholder,x scale
            return cost
    
        def calc_total_cost(self,X):
            # 计算cost,用来测试模型效果
            return self.sess.run(self.cost, feed_dict={self.x:X,self.scale:self.training_scale})
    
        def transform(self,X):
            # 编码
            return self.sess.run(self.hidden, feed_dict={self.x:X,self.scale:self.training_scale})
    
        def generate(self,hidden=None):
            # 解码
            if hidden==None:
                hidden = np.random.normal(size = self.weigths['b1'])
            return self.sess.run(self.reconstruction,feed_dict={self.hiddne:hidden})
    
        # 重构,包括编码和解码两个过程
        def reconstruct(self, X):
            return self.sess.run(self.reconstruction, feed_dict={self.x:X, self.scale:self.training_scale})
        def getWeights(self):
            return self.sess.run(self.weights['w1'])
        def getBiases(self):
            return self.sess.run(self.weights['b1'])
        def pltTwo(self):
            import matplotlib.pyplot as plt
            r = np.random.randint(0, mnist.test.num_examples - 1)
            fig = plt.figure()
            ax = fig.add_subplot(131)
            bx = fig.add_subplot(132)
            cx = fig.add_subplot(133)
            ax.imshow(mnist.test.images[r:r + 1].reshape(28, 28), cmap='Greys', interpolation='nearest')        ### 随机选一张图,reshape
            bx.imshow(self.transform(mnist.test.images[r:r + 1]).reshape(20, 20), cmap='Greys', interpolation='nearest')        ### 编码
            cx.imshow(self.reconstruct(mnist.test.images[r:r + 1]).reshape(28, 28), cmap='Greys', interpolation='nearest')      ### 编码解码形成新图
            plt.show()
    
    # 数据标准化
    def standard_scale(X_train,X_test):
        preprocessor  = prep.StandardScaler().fit(X_train)
        X_train = preprocessor.transform(X_train)
        X_test = preprocessor.transform(X_test)
        return X_train,X_test
    
    def get_random_block_form_data(data, batch_size):
        # 获取随机block数据
        start_index = np.random.randint(0, len(data)-batch_size)
        return data[start_index:(start_index + batch_size)]
    
    
    if __name__=='__main__':
        # 1,获取数据并标准化
        # mnist = input_data.read_data_sets("./data", one_hot=True)
        mnist = input_data.read_data_sets("./data", one_hot=True)               ### 获取数据
        X_train,X_test = standard_scale(mnist.train.images,mnist.test.images)    ### 数据标准化
    
        # 2,定义一些训练参数
        n_samples = int(mnist.train.num_examples)
        training_epochs = 100
        batch_size = 128
        display_step = 2
    
        # 3,构建去噪自编码器模型,包括网络结构的定义,loss和优化器的定义等
        autoencoder = AdditiveGaussianNoiseAutoEncoder(n_input=784,
                                                       n_hidden=400,        ### 这里设 400 是为了 编码图片为 400 维,可以 reshape 成 20x20
                                                       transfer_function=tf.nn.softplus,
                                                       optimizer=tf.train.AdamOptimizer(learning_rate=0.001),
                                                       scale=0.01)
        # 4,迭代训练
        for epoch in range(training_epochs):
            avg_cost = 0.0
            total_batch = int(n_samples/batch_size)     ### 所有样本迭代完毕需要的 次数
    
            for i in range(total_batch):
                batch_xs = get_random_block_form_data(X_train,batch_size)   ### 随机获取一个 batch 的数据,可能有大量重复
                cost = autoencoder.partial_fit(batch_xs)        ### 当前 cost
                avg_cost += cost/n_samples
            if epoch % display_step == 0:
                print('Epoch: %04d,cost=%.9f' % (epoch+1,avg_cost))
    
        # 5,测试
        print('Total cost: '+str(autoencoder.calc_total_cost(X_test)))
    
        # 6,原始图和重构图的对比
        autoencoder.pltTwo()

    输出:原始图;编码图;解码图

    只是个 demo,自己可以调试下 

    参考资料:

    https://www.cnblogs.com/LXP-Never/p/10921257.html

    https://www.cnblogs.com/virter/p/9547520.html

    https://www.cnblogs.com/royhoo/p/Autoencoders.html

    https://zhuanlan.zhihu.com/p/80377698

  • 相关阅读:
    第一次的作业
    第02组 Alpha冲刺(2/4)
    团队项目选题报告
    第一次个人编程作业
    第二次结对编程作业
    胖子的故事(四)
    关于博客园的聚合问题
    blog是写给谁看的
    ASP.NET Forms 身份验证
    要努力了!
  • 原文地址:https://www.cnblogs.com/yanshw/p/12360301.html
Copyright © 2011-2022 走看看