神经网络入门第3章 S函数

zoukankan html css js c++ java

神经网络入门第3章 S函数
    前言

    神经网络是一种很特别的解决问题的方法。本书将用最简单易懂的方式与读者一起从最简单开始，一步一步深入了解神经网络的基础算法。本书将尽量避开让人望而生畏的名词和数学概念，通过构造可以运行的Java程序来实践相关算法。

    关注微信号“逻辑编程"来获取本书的更多信息。

    上一章我们构造的神经元输入和输出没有任何限制，当我们组成神经网络时就会造成很多问题。输出值过大不但容易造成溢出，而且很很多时候是无意义的。比如，判断一个图片是否写着数字“2”，我们需要的是它是“2”的概率，［0-1］范围的实数是最合适的。

    因此，我们需要对我们的神经元输出作出限制。把上一章的函数［y=w*x+b］的输出值通过一个函数变换到［0-1］范围，就可以达到我们的目的。其它逻辑与上一章一致。

    那么有什么函数可以把任意实数值映射到［0-1］范围呢？这样的函数不止一种。在这里我们加入一个比较常用的，叫做S函数（Sigmoid）。





    当t等于无穷小时函数值趋近0；t值趋近无穷大时函数值趋近于1；0处函数值是0.5。其函数图形如下：

    将上一章的简单线性函数替换S函数的自变量我们得到这个函数：

    f(x) = 1/(1 + exp(-w*x - b))

其中w决定了S函数在中间处的斜率包括变化方向，b决定了S函数在x轴方向的平移量。下图中展示了几个不同参数的S曲线的形状：



    从图中我们可以看到S曲线的一些特征：斜率非常大时类似于二值函数；可以由参数决定从0到1或者从1到0的不同方向；可以平移。S函数是神经网络的一个关键点。我们后面会讨论它的重要性。本章中我们将关注应用S函数之后的单个神经元。



    很明显这个函数无法完成我们上一章说的直线拟合，不过它依然可以通过训练拟合到它自己的参数。这就是本章我们要解决的问题。现在我们来继承上一章的Java类，只要覆盖几个函数即可。

    首先覆盖f函数，抽取上一章的f函数成z函数，然后加个S函数：

public double f(double x) {
return sigmoid(z(x));
}

double z(double x) {
return x * weight + bias;
}

double sigmoid(double z) {
return 1.0 / (1.0 + Math.exp(-z));
}

    经过上边的变换，f的输出被影射到［0-1］范围内了。f函数是通过两个函数链接完成的。

    函数变了，其梯度函数也不一样了。比如y(z)=2*z表示一条斜率为2的斜线；z(x)=3*x表示一条斜率为3的斜线。那么y(x)=2*(3*x)＝6*x，其斜率是2*3。可见函数的斜率具有链式规则。所以我们只要把S函数的导数乘以z函数的导数就可以了。这里的z函数是我们上一章的f函数。所以我们的梯度函数现在是这样的：



public double[] gradient(double x, double y) {
double[] g = super.gradient(x, y);
double z = z(x);
double dz = dz(z);
g[0] *= dz;
g[1] *= dz;
return g;
}

protected double dz(double z) {
return sigmoid(z) * (1 - sigmoid(z));
}

    最后，我们覆盖获得测试目标的函数并对入口函数稍作修改，使用新的神经元类：

protected SingleNeuron getTarget() {
return new SingleSigmoidNeuron(3, 3);
}

public static void main(String... args) {
SingleSigmoidNeuron n = new SingleSigmoidNeuron(0, 0);
double rate = 5;
int epoch = 100;
int trainingSize = 20;
for (int i = 0; i < epoch; i++) {
double[][] data = n.generateTrainingData(trainingSize);
n.train(data, rate);
System.out.printf("Epoch: %3d, W: %f, B: %f ", i, n.weight, n.bias);
}
}

我们的目标(w,b)与上一章一样，产生训练数据的函数也不做修改。现在我们运行一下新的程序：

Epoch: 90, W: 2.915254, B: 2.966388

Epoch: 91, W: 2.918170, B: 2.968286

Epoch: 92, W: 2.919169, B: 2.968809

Epoch: 93, W: 2.919169, B: 2.968809

Epoch: 94, W: 2.919169, B: 2.968809

Epoch: 95, W: 2.919169, B: 2.968809

Epoch: 96, W: 2.920288, B: 2.969410

Epoch: 97, W: 2.939107, B: 2.992186

Epoch: 98, W: 2.939107, B: 2.992186

Epoch: 99, W: 2.939229, B: 2.992233

    呀吼！还是能训练的到我们的目标(w,b)。实验成功！

    读者可以思考一下S函数有什么替代品。答案肯定是有的。您可以自己把S函数替换成另外一个符合条件的函数，看看训练结果和效率怎么样。

最后完整代码如下：

package com.luoxq.ann.single;
/**
* Created by luoxq on 17/4/9.
*/
public class SingleSigmoidNeuron extends SingleNeuron {

public SingleSigmoidNeuron(double weight, double bias) {
super(weight, bias);
}

public double f(double x) {
return sigmoid(z(x));
}

double z(double x) {
return x * weight + bias;
}

double sigmoid(double z) {
return 1.0 / (1.0 + Math.exp(-z));
}

// c = w*x + b - y
public double[] gradient(double x, double y) {
double[] g = super.gradient(x, y);
double z = z(x);
double dz = dz(z);
g[0] *= dz;
g[1] *= dz;
return g;
}

protected double dz(double z) {
return sigmoid(z) * (1 - sigmoid(z));
}

protected SingleNeuron getTarget() {
return new SingleSigmoidNeuron(3, 3);
}

public static void main(String... args) {
SingleSigmoidNeuron n = new SingleSigmoidNeuron(0, 0);
//target: y = 3*x + 3;
double rate = 5;
int epoch = 100;
int trainingSize = 20;
for (int i = 0; i < epoch; i++) {
double[][] data = n.generateTrainingData(trainingSize);
n.train(data, rate);
System.out.printf("Epoch: %3d, W: %f, B: %f ", i, n.weight, n.bias);
}
}
}

这一章我们使用了S函数和链式求导法则。要了解其它章节，请关注微信订阅号逻辑编程。
查看全文

相关阅读:
个人网址收集
 使用 TListView 控件(2)
C# 语法练习(14): 类[六] 事件
 如何在 "万一的 Delphi 博客" 回复自动格式化的着色代码?
使用 TListView 控件(1)
C# 语法练习(13): 类[五] 索引器
 使用 TListView 控件(4)
C# 语法练习(11): 类[三] 构造函数、析构函数、base、this
C# 语法练习(12): 类[四] 抽象类与抽象成员、密封类与密封成员
 使用 TListView 控件(3)

原文地址：https://www.cnblogs.com/javadaddy/p/6732900.html

神经网络入门 第3章 S函数

神经网络入门第3章 S函数