1.1
若表中只包含编号1和4两个样例,则训练数据集为
色泽 | 根蒂 | 敲声 | 是否好瓜 |
青绿 | 蜷缩 | 浊响 | 是 |
乌黑 | 稍蜷 | 沉闷 | 否 |
上表有三个属性,每个属性有两种取值,所以上述数据集的假设空间大小为3*3*3+1=28
编号 | 色泽 | 根蒂 | 敲声 | 与训练集正例是否一致 |
1 | 青绿 | 蜷缩 | 浊响 | 是 |
2 | 青绿 | 蜷缩 | 沉闷 | |
3 | 青绿 | 蜷缩 | ※ | 是 |
4 | 青绿 | 稍蜷 | 浊响 | |
5 | 青绿 | 稍蜷 | 沉闷 | |
6 | 青绿 | 稍蜷 | ※ | |
7 | 青绿 | ※ | 浊响 | 是 |
8 | 青绿 | ※ | 沉闷 | |
9 | 青绿 | ※ | ※ | 是 |
10 | 乌黑 | 蜷缩 | 浊响 | |
11 | 乌黑 | 蜷缩 | 沉闷 | |
12 | 乌黑 | 蜷缩 | ※ | |
13 | 乌黑 | 稍蜷 | 浊响 | |
14 | 乌黑 | 稍蜷 | 沉闷 | |
15 | 乌黑 | 稍蜷 | ※ | |
16 | 乌黑 | ※ | 浊响 | |
17 | 乌黑 | ※ | 沉闷 | |
18 | 乌黑 | ※ | ※ | |
19 | ※ | 蜷缩 | 浊响 | 是 |
20 | ※ | 蜷缩 | 沉闷 | |
21 | ※ | 蜷缩 | ※ | 是 |
22 | ※ | 稍蜷 | 浊响 | |
23 | ※ | 稍蜷 | 沉闷 | |
24 | ※ | 稍蜷 | ※ | |
25 | ※ | ※ | 浊响 | 是 |
26 | ※ | ※ | 沉闷 | |
27 | ※ | ※ | ※ | |
28 | 空集 |
所以版本空间为假设1、3、7、9、19、21、25
1.2
训练数据集1.1有三个属性,色泽有3种情况(青绿、乌黑、※),根蒂有4种情况(蜷缩、硬挺、稍蜷、※),敲声有4种情况(浊响、清脆、沉闷、※),加上空集则共有3*4*4+1=49种假设。在不考虑沉余的情况下,最多包含49个合取式来表达假设空间,每次从中选取k个合取式来组成折合式,共有$sum left ( C_{49}^{k} ight )=2^{49}$种情况。但是其中包含了很多沉余的情况(至少存在一个合取式被剩余的析合式完全包含<空集除外>)。
https://blog.csdn.net/icefire_tyh/article/details/52065626
1.3
通常认为两个数据的属性越相近,则更倾向于将他们分为同一类。若相同属性出现了两种不同的分类,则认为它属于与他最临近几个数据的属性。也可以考虑同时去掉所有具有相同属性而不同分类的数据,留下的数据就是没误差的数据,但是可能会丢失部分信息。
1.4
1.5
问题的特征表示:用一组特征向量来表示问题,需要体现出问题的语义方面的相关信息,类似自然语言处理。