1.理解分类与监督学习、聚类与无监督学习。
简述分类与聚类的联系与区别,简述什么是监督学习与无监督学习。
分类 | 聚类 | |
含义 |
把每一条记录归到对应的已知类别中。 |
将数据集划分为若干类, 使得类内之间的数据最为相似, 各类之间的数据相似度差别尽可能大。 |
联系 | 对于想要分析的目标点,都会在数据集中寻找离它最近的点,二者都用到了NN算法 | |
区别 |
类别是已知的 常用KNN算法 有监督学习 |
类别是未知的 常用K-Means算法 无监督学习 |
监督学习:输入数据有标签,数据集的正确输出已知的情况下一类学习算法。因为输入和输出已知,意味着输入和输出之间有一个关系,监督学习算法就是要发现和总结这种“关系”。
应用:
根据人的照片预测图片中人的年龄。
对于肿瘤患者,预测肿瘤是恶性还是良性。
无监督学习:输入数据没有标签,对无标签数据的一类学习算法。因为没有标签信息,意味着需要从数据集中发现和总结模式或者结构。
应用:
新闻主题分组。
市场客户群体划分。
2.朴素贝叶斯分类算法 实例
利用关于心脏病患者的临床历史数据集,建立朴素贝叶斯心脏病分类模型。
有六个分类变量(分类因子):性别,年龄、KILLP评分、饮酒、吸烟、住院天数
目标分类变量疾病:
–心梗
–不稳定性心绞痛
新的实例:–(性别=‘男’,年龄<70, KILLP=‘I',饮酒=‘是’,吸烟≈‘是”,住院天数<7)
最可能是哪个疾病?
上传手工演算过程。
3.使用朴素贝叶斯模型对iris数据集进行花分类。
尝试使用3种不同类型的朴素贝叶斯:
- 高斯分布型
- 多项式型
- 伯努利型
并使用sklearn.model_selection.cross_val_score(),对各模型进行交叉验证。
完整代码
1 from sklearn.datasets import load_iris 2 from sklearn.naive_bayes import GaussianNB # 高斯分布型 3 from sklearn.naive_bayes import MultinomialNB # 多项式型 4 from sklearn.naive_bayes import BernoulliNB # 伯努利型 5 from sklearn.model_selection import cross_val_score 6 import numpy as np 7 8 # 提取数据 9 iris = load_iris() 10 # 建立模型 11 gnb = GaussianNB() 12 mnb = MultinomialNB() 13 bnb = BernoulliNB() 14 # 训练模型 15 gnb_pre = gnb.fit(iris.data, iris.target) 16 mnb_pre = mnb.fit(iris.data, iris.target) 17 bnb_pre = bnb.fit(iris.data, iris.target) 18 # 分类预测 19 y_gnb = gnb_pre.predict(iris.data) 20 y_mnb = mnb_pre.predict(iris.data) 21 y_bnb = bnb_pre.predict(iris.data) 22 23 print('GNB预测正确个数/总个数:{0}/{1}'.format(np.equal(y_gnb, iris.target).sum(), iris.data.shape[0])) 24 print('MNB预测正确个数/总个数:{0}/{1}'.format(np.equal(y_mnb, iris.target).sum(), iris.data.shape[0])) 25 print('BNB预测正确个数/总个数:{0}/{1}'.format(np.equal(y_bnb, iris.target).sum(), iris.data.shape[0])) 26 27 # 交叉验证 28 gnb_scores = cross_val_score(gnb, iris.data, iris.target, cv=10) 29 print("GNB Accuracy:%.6f" % gnb_scores.mean()) 30 mnb_scores = cross_val_score(mnb, iris.data, iris.target, cv=10) 31 print("MNB Accuracy:%.6f" % mnb_scores.mean()) 32 bnb_scores = cross_val_score(bnb, iris.data, iris.target, cv=10) 33 print("BNB Accuracy:%.6f" % bnb_scores.mean())