1.判断与名称解释题
a
1.1 数据挖掘:在较大数据集上通过某些方式发现模型的一个过程
1.2 机器学习:研究如何通过计算手段,利用经验提升系统的性能
1.3 假设空间:对于数据集A,其data对应的特征为一个向量,此向量所在的空间称为假设空间
1.4 奥卡姆剃刀:若有多个假设与观测一致,则选择最简单的那个
1.5 没有免费的午餐:算法的期望性能与算法本身无关
1.6 偏差方差说明了什么:偏差:学习算法与期望预测的偏离程度,学习算法本身的拟合能力
方差:同样大小训练集的变动导致的学习性能的变化
偏差越小方差越大,方差越小偏差越大
1.7 误差分歧分解说明了什么:个体学习器准确性越高,多样性越大,效果就越好
1.8 机器学习的类型:多分类,二分类,回归,聚类,监督学习,半监督学习,无监督学习
1.9 统计学习:基于统计学泛函分析的机器学习架构
1.10 深度学习:深层神经网络,有多个神经元和多个隐藏层
b
1.11 过拟合:过于学习训练样本中的特点,导致泛化性能下降
1.12 欠拟合:对训练样本中的一般性质尚未学好
1.13 经验误差:在训练集上的误差
1.14 泛化误差:在新样本上的误差
1.15 留出法:将数据集拆分为两个互斥集合,一个作为训练集,一个作为测试集,用于估计训练误差与泛化误差
1.16 自助法:使用放回采样法,采样n次,取原数据集/采样数据集 作为测试集, 采样数据集作为训练集
1.17 交叉验证:将数据集划分成为多个大小相似的互斥子集,尽可能保持子集数据分布的一致性,每次将k-1个子集作为训练集,剩下一个作为测试集,进行k次训练。
1.18 查准率:P = TP / (TP + FP)
1.19 查全率:R = TP / (TP + FN)
1.20 F_1度量:2×P×R / (P+R)
1.21 ROC曲线:通过改变截断点从而得到TPR(y)和FPR(x) TPR = TP / (TP + FN),FPR = FP / (TN + FP)
1.22 AUC面积:ROC曲线所对应的面积
1.23 假设检验:利用假设检验获取两个不同学习器的性能,假设指的是对学习器泛化错误率分布的某种判断或猜想
1.24 信息熵:度量样本集合程度的指标
1.25 gini指数:数据集的纯度可用基尼值去度量,gini系数越小,数据集纯度越高选择划分后,基尼系数最小的那个特征作为划分特征
1.26 Bayes公式:
1.27 信息增益:信息增益越大,使用属性a进行的划分纯度越高
1.28 剪枝:决策树算法对于过拟合的解决方法
2
2.1 线性模型
2.1.1 线性模型的优化目标:学习一个线性模型以尽可能准确的预测实值输出标记
2.1.2 线性模型的求解方案:最小二乘法
2.1.3 logistic回归的基本原理: 利用对数激活函数替代单位阶跃函数,解决单位阶跃函数不连续,不处处可导的问题
2.1.4 线性判别分析的基本原理:预使得同类样例的投影点尽可能接近,可以让同类投影点的协方差尽可能小
预使得异类样例投影点尽可能远离,可以让类中心距离尽可能大
2.1.5 ECOC多分类的基本原理:对n个类别进行m次划分,取训练m个分类器,对于一个数据使用这m个分类器,从而得到一个m长的ecoc码,对n个类也能得到n个m长的ecoc码, 找距离最小的码所对应的类别作为数据的类别
2.2 决策树
2.2.1 如何根据信息增益原则划分属性生成决策树:找信息增益最大的属性划分属性生成卷册书
信息增益其实就是信息熵的下降程度
信息增益 = 信息熵 - 划分之后的信息熵按样本量加权平均
2.2.2 剪枝处理的类型和基本方法:预剪枝,后剪枝
预剪枝:在使用信息增益进行划分的时候,判断划分前后验证集精度,以验证集精度是否增加来决定是否划分
后剪枝:后剪枝从后往前遍历每个非叶节点,判断去掉此节点验证集进度是否上升,若上升则去掉此非叶节点
2.2.3 连续值和缺失值的处理:
连续值:将样本中的此属性排序 取t = (ai + ai+1) / 2为阈值,一共有n-1个阈值, 遍历所有的阈值,找到信息增益最大的那个作为截断点,使用截断点将连续值离散的分为两类
缺失值:划分属性时若遇到缺失值那么信息增益为 无缺失值样本所占的比例 × 在无缺失值样本上的信息增益
若数据在此节点有缺失值,那么把此数据按一个概率划入所有的子节点,此概率为p(k,v)
p(k,v)为 未缺失值中此特征为v且为第k类的概率
2.3 神经网络
2.3.1 多层前馈神经网络的基本组成部分:含有输入层,隐藏层,输出层,每层神经元与下一层神经元全连接,不存在同层连接或跨层连接
2.3.2 误差传播算法的原理和步骤:
原理
基于梯度下降策略,以目标负梯度方向对参数进行调整
步骤
1.在(0,1)范围内随机初始化权重和阈值
2.遍历每一个样本,计算器在每个神经元上的权重和阈值的梯度
3.利用梯度和学习率更新权重
4.重复上述操作直到达到停止条件
2.3.3 跳出局部最优的常用策略
1.取多个初值不同的神经网络进行训练,取效果最好的那个
2.使用模拟退火策略
3.使用随机梯度下降
2.4 支持向量机
2.4.1 间隔: 2/ || w||
2.4.2 支持向量:w*x + b
2.4.3 线性可分与不可分:样本可被一个超平面分开和样本不可通过一个超平面分开
2.4.4 核函数:一个非线性映射,将数据从一个线性不可分的空间映射到一个线性可分的空间
2.4.5 软间隔和硬间隔:要求所有样本都划分正确称为硬间隔,允许支持向量机在一些样本上划分错误称为硬间隔
2.4.6 支持向量机分类的优化目标与基本求解方案:
优化目标:0.5*||w||2 + C*Σloss(xi,yi)
基本求解方案:
1.通过拉格朗日乘子法得到对偶问题
2.利用最优化算法求解对偶问题
2.4.7 支持向量回归的基本原理:以f(x)为中心构建了一个宽度为2e的间隔带,若训练样本落入间隔带中则认为被预测准确
2.5贝叶斯分类器
2.5.1 朴素贝叶斯分类器的基本原理:假设数据中的所有特征相互独立,则根据贝叶斯公式有P(c|x) = p(c)Π p(xi |c)
2.5.2 朴素贝叶斯的分类规则 argmaxp(c)Π p(xi |c)
2.5.3 维数过多导致概率趋于0:使用log将连乘变为累加
2.5.3 EM算法的基本原理:
1.根据模型参数和训练样本估计缺省值,使得准确率尽可能高
2.将估计的缺省值作为缺省值,更新模型参数
3.重复上述步骤已达到精度要求
4.原理是最大化模型关于缺省值的边际似然 以估计缺省值
2.6 集成学习
2.6.1 基本原则:好而不同
好:个体学习器准确率尽可能高
不同:各学习器关联性低
2.6.2 集成学习类型:
1.boosting
先训练出一个学习器,然后基于前学习器的错误训练样本对训练样本的分布进行调整,使得后续学习器更加关注之前学习器预测错误的训练样本
最终为所有学习器的加权结合
2.bagging
基于自助采样法,采样出T个含有m个训练样本的采样集,然后基于每个采样集训练出一个基学习器,再将这些学习器进行结 ?/
其对分类任务使用简单投票法,对回归任务使用简单平均法
3.随机森林
在以决策树为基学习器构建Bagging集成的基础上,进一步在决策树的训练过程中引入随机属性选择,在RF中,对及决策树的每一个结点,先从该结点的属性集合中随机选择一个包含k个属性的子集,然后从这个子集中学则一个最优的属性用于划分,推荐k=log2d
2.7 聚类:
2.7.1.学习方法分类
监督学习:当有大量标记过的样本数据时采用
半监督学习:当有少量标记过的样本数据和大量未标记的样本数据时采用
主要思路:
1.利用已标记的样本,得到模型
2.利用模型估计未标记的样本
3.利用预测值重新训练模型
4.重复2,3步直到模型达到要求
无监督学习:当样本数据没有标记时采
2.7.2:K-means的基本原理
1.随机选取k个聚类中心
2.每个数据找离自己距离最短的聚类中心,进行分类
3.计算每个类别的中心点,将他们作为真正的中心点
4.重复2,3步直到均方误差收敛
5.重复1-4步多次,选取均方误差最小的作为结果