【邱希鹏】神经网络与深度学习课后习题-chap2

zoukankan html css js c++ java

【邱希鹏】神经网络与深度学习课后习题-chap2
1. 分析为什么平方损失函数不适用于分类问题.

答:
- 分类问题中的标签，是没有连续的概念的。每个标签之间的距离也是没有实际意义的，所以预测值和标签两个向量之间的平方差这个值不能反应分类这个问题的优化程度。
- 假设分类问题的类别是1,2,3
- 那么对于一个真实类别为2的样本X，模型的分类结果是 1 或 3，平方损失函数得到的结果都一样。
- 显然，不适合
2. 计算其最优参数

在线性回归中，如果我们给每个样本 (left(mathbf{x}^{(n)}, y^{(n)} ight)) 赋予一个权重 (r^{(n)})，经验风险函数为

[mathcal{R}(mathbf{w})=frac{1}{2} sum_{n=1}^{N} r^{(n)}left(y^{(n)}-mathbf{w}^{mathrm{T}} mathbf{x}^{(n)} ight)^{2} ]
计算其最优参数 (w^*)，并分析权重 (r^{(n)}) 的作用。

答：

[egin{array}{l} 令 frac{partial R(w)}{partial w}=-r xleft(y-x^{T} w ight)=0 left. \ w^{*}=(sum_{n=1}^{N} x^{(n)}left(x^{(n)} ight)^{T} ight)^{-1}left(sum_{n=1}^{N} r^{(n)} x^{(n)} y^{(n)} ight) end{array} ]
(r^{(n)}): 为每个样本都分配了权重，相当于对每个样本都设置了不同的学习率，即，理解成对每个样本重视程度不同。

3. 证明矩阵的秩

在线性回归中，如果样本数量 N 小于特征数量 d+1，则 XX^T 的秩最大为 N。

答：
- 已知定理：设 (A, B) 分别为 (n imes m, m imes s)的矩阵，则 (rank(AB) le min{rank(A), rank(B)})
- 而 (X in mathbb{R}^{(d+1) imes N}, X^T in mathbb{R}^{N imes (d+1)})
  
  (rank(X) = rank(X^T) = min((d+1), N), N < d + 1, 可知 rank(X) = N)
- 可知 (rank(X, X^T) le {N, N} = N)
4. 验证岭回归

在线性回归中，验证岭回归的解为结构风险最小化准则下的最小二乘法估计，见公式(2.44)

答：
已知

[R(w) = frac{1}{2}||y - X^Tw||^2 + frac{1}{2}lambda ||w||^2 \ w^* = (XX^T + lambda I)^{-1}Xy ]
可得

[egin{aligned} frac{partial mathcal{R}(mathbf{w})}{partial mathbf{w}} &=frac{1}{2} frac{partialleft|mathbf{y}-X^{mathrm{T}} mathbf{w} ight|^{2}+lambda|mathbf{w}|^{2}}{partial mathbf{w}} \ &=-Xleft(mathbf{y}-X^{mathrm{T}} mathbf{w} ight)+lambda mathbf{w} end{aligned} ]
令 (frac{partial}{partial mathrm{w}} mathcal{R}(mathbf{w})=0) 可得

[egin{array}{c} -X Y+X X^{mathrm{T}} mathbf{w}+lambda mathbf{w}=0 \ left(X X^{mathrm{T}}+lambda I ight) mathbf{w}=X Y end{array} ]
即

[mathbf{w}^{*}=left(X X^{mathrm{T}}+lambda I ight)^{-1} X mathbf{y} ]
5. 最大似然估计

在线性回归中，若假设标签 (y sim mathcal{N} left(mathbf{w}^{mathrm{T}} mathbf{x}, eta ight)) 并用最大似然估计来优化参数时，验证最优参数为公式(2.51)的解。

已知

[log p(mathbf{y} mid X ; mathbf{w}, sigma)=sum_{n=1}^{N} log mathcal{N}left(y^{(n)} mid mathbf{w}^{mathrm{T}} mathbf{x}^{(n)}, sigma^{2} ight) ]
令 (frac{partial log p(mathbf{y} mid X ; mathbf{w}, sigma)}{partial mathbf{w}}=0)，即有

[frac{partialleft(sum_{n=1}^{N}-frac{left(y^{(n)}-mathbf{w}^{mathrm{T}} mathbf{x}^{(n)} ight)^{2}}{2 eta} ight)}{partial mathbf{w}}=0 ]
[egin{array}{c} frac{partial frac{1}{2}left|mathbf{y}-X^{mathrm{T}} mathbf{w} ight|^{2}}{partial mathbf{w}}=0 \ -Xleft(mathbf{y}-X^{mathrm{T}} mathbf{w} ight)=0 end{array}]
则

[mathbf{w}^{M L}=left(X X^{mathrm{T}} ight)^{-1} X mathbf{y} ]
6. 最大后验估计
查看全文

相关阅读:
eworkflow,eform,ebiao和信息系统的集成过程(for dotnet)
HTTP协议详解
 phpstudy安装好之后mysql无法启动(亲测可行)
关于在phpStudy环境下，windows cmd中 php不是内部命令问题
 php 中使用cURL发送get/post请求，上传图片，批处理
 Laravel 5.4: 特殊字段太长报错 420000 字段太长
 请自行检查是否安装VC9运行库？？
一起谈.NET技术，舍WebService 用.NET4中jQuery调用WCF 狼人:
一起谈.NET技术，Silverlight 游戏开发小技巧：昼夜交替动画狼人:
一起谈.NET技术，Silverlight 2.5D RPG游戏技巧与特效处理：（一）序言狼人:

原文地址：https://www.cnblogs.com/douzujun/p/13285715.html

【邱希鹏】神经网络与深度学习课后习题-chap2

1. 分析为什么平方损失函数不适用于分类问题.

2. 计算其最优参数

3. 证明矩阵的秩

4. 验证岭回归

5. 最大似然估计

6. 最大后验估计