《机器学习》西瓜书习题第 1 章

zoukankan html css js c++ java

《机器学习》西瓜书习题第 1 章

习题

1.1

　　表 (1.1) 中若只包含编号为 (1) 和 (4) 的两个样例, 试给出相应的版本空间.

　　这应该不难理解吧，直接上表格.

编号色泽根蒂敲声好瓜

(1) 青绿蜷缩浊响是

(4) 乌黑稍蜷沉闷否

1.2

　　**与使用单个合取式来进行假设表示相比, 使用 "析合范式" 将使得假设空间具有更强的表示能力. 例如

[好瓜 leftrightarrow ig((色泽=*)wedge(根蒂=蜷缩)wedge(敲声=*)ig)veeig((色泽=乌黑)wedge(根蒂=*)wedge(敲声=沉闷)ig) ]
会把 "((色泽=*)wedge(根蒂=蜷缩)wedge(敲声=*))" 以及 "((色泽=乌黑)wedge(根蒂=*)wedge(敲声=沉闷))" 都分类为 "好瓜" . 若使用最多包含 (k) 个合取式的析合范式来表达 (1.1) 西瓜分类问题的假设空间, 试估算共有多少种可能的假设.**

　　一共有 (3) 个特征, 第一个特征有 (3) 种取值(算上 (*) ), 第二, 三个都是 (4) 种取值.
　　每个合取式我们分为三项:色泽, 根蒂, 敲声.这里要注意某个项其实是可以同时选择两种取值的, 比如色泽这一项可以是 (ig((色泽=青绿)wedge(色泽=乌黑)ig)) 而不是只能有一个取值.
　　那么第一项只可能选择一个或两个取值, 取值是一个时有 (3) 种可能, 取值为两种时只有 (1) 种可能(即除了 (*) 外的另两种一起取到), 其他项以此类推, 那么就有 (4 imes7 imes7=196) 种合取式, 因此 (k_{maoldsymbol{x}}=196).
　　所以可能的假设总数为 (sum^{k_{maoldsymbol{x}}}_{i=1}C_{k_{maoldsymbol{x}}}^i) , 即任意取 (1sim k_{maoldsymbol{x}})个合取式然后组合成的析合范式的数量.
　　当然我们这里不考虑冗余 ~~(因为我懒)~~ .

1.3

　　若数据包含噪声, 则假设空间中有可能不存在与所有训练样本都一致的假设. 在此情形下, 试设计一种归纳偏好用于假设选择.

　　当然是奥卡姆剃刀啦, "如无必要, 勿增实体", 大概体现了一种哲学思想吧.

1.4*

　　**本章 (1.4) 节在论述 "没有免费的午餐" 定理时, 默认使用了 "分类错误率" 作为性能度量来对分类器进行评估. 若换用其他性能度量 (ell) ,则将式((1.1))改为

[E_{ote}(mathfrak{L}_amid X,f)=sum_hsum_{oldsymbol{oldsymbol{x}}in mathcal{X}-X}P(oldsymbol{oldsymbol{x}})ell(h(oldsymbol{oldsymbol{x}}),f(oldsymbol{oldsymbol{x}}))P(hmid X,mathfrak{L}_a) ]
试证明 "没有免费的午餐定理" 仍成立.**

　　其实和原来的推导差不多. 对所有可能的 (f) 按均匀发布对误差求和, 有

[egin{aligned} sum_fE_{ote}(mathfrak{L}_amid X,f)&=sum_fsum_hsum_{oldsymbol{x}in mathcal{X}-X}P(oldsymbol{x})ell(h(oldsymbol{x}),f(oldsymbol{x}))P(hmid X,mathfrak{L}_a)\ &=sum_{oldsymbol{x}inmathcal{X}-X}P(oldsymbol{x})sum_hp(hmid X,mathfrak{L})sum_fell(h(oldsymbol{x}),f(oldsymbol{x}))\ &=sum_{oldsymbol{x}inmathcal{X}-X}P(oldsymbol{x})sum_hp(hmid X,mathfrak{L})E(ell)\ &=E(ell)sum_{oldsymbol{x}inmathcal{X}-X}P(oldsymbol{x})sum_hp(hmid X,mathfrak{L})\ &=E(ell)sum_{oldsymbol{x}inmathcal{X}-X}P(oldsymbol{x})cdot1\ &=E(ell)sum_{oldsymbol{x}inmathcal{X}-X}P(oldsymbol{x}) end{aligned}]
　　(E(ell)) 为 (ell) 的数学期望(就是 (ell) 这个函数所有可能输出的均值去乘 (2^{|mathcal{X}|}), 因为 (f) 是任意的. ~~反正是个常数.~~).
　　最终表达式与学习算法 (mathfrak{L}) 无关, 于是$$sum_fE_{ate}(mathfrak{L}mid X,f)=sum_fE_{ate}(mathfrak{L}mid X,f)$$
　　所以 "没有免费的午餐定理" 仍成立.

1.5

　　试述机器学习能在互联网搜索的哪些环节起什么作用.

　　这个就多了, 比如搜索引擎, 图片搜索, 智能化推荐, 还有很多很多. 当然你还可以用机器学习来破解反爬虫, 比如识别简单的验证码.

查看全文

相关阅读:
(转)Linux: su sudo sudoer
unsigned 和 signed
(转)原码, 反码, 补码详解
 判断两个链表是否相交
 源代码里面看不到页面展示的数据？原因何在
 python 小技巧防止SSL报错信息
 python爬虫之一---------豆瓣妹子图
 服务端性能测试 TPS
H5性能测试学习
 App测试中 ----------------Android和IOS测试区别

原文地址：https://www.cnblogs.com/cloud--/p/12078171.html

编号	色泽	根蒂	敲声	好瓜
(1)	青绿	蜷缩	浊响	是
(4)	乌黑	稍蜷	沉闷	否

《机器学习》西瓜书习题 第 1 章

习题

1.1

1.2

1.3

1.4*

1.5

《机器学习》西瓜书习题第 1 章