zoukankan      html  css  js  c++  java
  • 机器学习中的一些术语小记录

    机器学习(machinelearning):从数据中学习得到某种规律的学科,以数据驱动的学习。

    机械学习:单纯记忆数据的学习方式,即死记硬背。

    模型(model):通常指我们要学习得到的函数或是映射,接受输入得到输出的转换规律,我们的目标就是得到这样的规律,不断拟合和逼近已知的数据。

    经验风险/结构风险(training error/ emprical error):经验风险和结构风险是不一样的

    由于数据的分布不总是符合理论分布(数据量小且有误差存在),在机器学习中经常要对预测的结果和实际结果之间的差距进行评估,于是引出了误差函数,即为经验风险或者结构风险,泛指在训练集上产生的误差。

    经验风险是模型在训练数据集上的平均损失,用来度量模型在整个训练数据集上预测效果的好坏.

    经验风险用来度量模型在整个训练集上的预测效果好坏,而损失函数用来度量模型在单个训练样本上的预测效果好坏。

     结构风险等价于经验风险加上模型复杂度的正则化项。

    正则化: 正则化项一般是模型复杂度的单调递增函数,一般以模型参数向量的范数来衡量。

    向量的p-范数:(wi是w的分量)

     机器学习中经常将参数向量的1范数和2范数作为正则化项,对应的正则化叫L1 正则和L2 正则。

    泛化误差(generalization error):在测试集上产生的误差

    深度学习(DeepLearning):利用多层神经网络以及负向反馈算法(BP)等技巧来进行学习的方法,是机器学习的一种分支。

     监督学习(supervised learning):从带有标签的数据样本中进行学习(标注数据),往往用于分类、预测等问题。监督学习有两个主要的方向:分类和回归。

    无监督学习:从无标签数据中进行学习(非标注数据),往往用于聚类(自动分类)、规律总结(往往我们不知道规律是什么)等问题。

    可以查询演绎和归纳两种科学学习思想。

    数据所表示的样本的某些属性值则被称为特征(feature), 对应所给的概括或者说明(定义样本是什么的标注,或者我们要预测的数值)就是标记(label)


    我们要找的模型就是能够接受组特征然后给出预测的标签的函数。

    分类和回归:根据输出值类型的不同,监督学习主要有两个方面的应用:分类和回归问题。

    分类问题中预测的值是离散值,一般取值的个数是有限的,比如性别、职业、省份等;回归问题中预测的值是连续值,一般取值是无限的,比如身高体重收入等。

    特征按照取值个数是否有限也分为连续型特征和离散型特征

    训练集和测试集:训练集是选取的用于训练得出模型的数据集合,测试集是用于测试模型能力的数据集合。

    测试集用来评估最终的模型,一般情况下只使用一次;验证集用来评估不同的超参数下训练出的多个模型或者不同算法模型(如线性回归和神经网络)的泛化性能,最终还会参与模型的训练。

    泛化能力:模型在非训练集数据上的计算效果,体现模型对于未知的数据的计算正确性。

    过拟合:模型过多地学习了一些不必要的特征,即过分拟合于训练集的数据,比如本来应当依照体重和身高判断健康状况,训练集中体重瘦于平均水平的人多,最后模型会倾向于判断体重较轻的人健康,甚至可能认为一些不必要的特征(比如教育水平)也会对结果产生影响;在对树叶进行学习的时候认为不仅是绿色的,而且要带有锯齿形状的物体才是树叶等

    欠拟合; 拟合能力过差导致模型泛化能力低下,上述学习分辨叶子的实验中认为绿色的物体就是叶子等。

     无监督学习应用主要有样本聚类和特征降维。

     

     模型参数(model parameter): 指模型有关的量化数值,是和数据以及模型本身的数学关系有关的。

    超参数: 人为设定的一些参数,比如学习率、迭代次数epoch等

    验证集(validation set):要注意的是,我们往往在模型评估和选择的过程中将已有的数据集分为训练集和测试集,但是在完成模型选择之后是要重新将训练集和测试集合并再对模型进行训练的,所以在已有的数据集中的测试集也被称为验证集。也就是本来用测试集和训练集评估不同模型的泛化能力,但是每一个训练集还是可以分为训练集(新)和验证集。

     关于梯度下降法:由于大部分损失函数都使用凸函数(某种定义,即二次导数局部为正),因此梯度下降法适用范围广。

    混淆矩阵: 将模型对实验集的predict结果和样例真实的标签分布列成数字表格,则形成了一个矩阵,这个矩阵的对角线对应预测正确的样例数。

     准确率(accuracy):指所有样例中预测正确的样例所占的比例,即不分种类的综合正确率。

    查准率(precision): 指在预测为正例(positive)(不一定是真的正例还是假的正例)中真正例所占比例,是针对不同分类的样例而言的,表现了预测出的正例中预测正确的样例的比例。

    在上表中即是P(A)= 1/4, P (B) = 3/5

    查全率(recall):在所有正例中(所有该类的样例)被预测出来的真正例的比例,即对所有满足该类型条件的样例被模型检测为正例的比例。

    在上表中比例即为 R(A) = 1/5 , R(C) = 3/5

    F1系数: 对查全率和查准率进行调和平均,

    其实也有Fβ:   加权进行调和平均。

    正/负

    不管二分类还是多分类,我们通常把我们所关心的样本称为正样本,其他样本称为负样本。你也可以理解为和我们的目标相关的就是正样本,和目标无关的就是负样本。比如广告系统的目标是通过算法提升商品的点击率,那么样本标记值为点击的就是正样本。

    相同算法对应模型的不同仅在于参数集合的不同,所以超参的选择也被称为调参。需要不断验证经验超参值,经过图像比较才能得出比较合适的选择。

    机器学习模型可以分为概率模型非概率模型,线性回归和K近邻都属于非概率模型,用预测函数y=f(x)来表示;而概率模型一般用条件概率分布P(y|x)来表示,逻辑回归(logistic)既可看作是概率模型,又可看作是非概率模型。

    朴素贝叶斯和决策树属于概率模型;K均值(k-means)和感知机与支持向量机属于非概率模型。在监督学习中,概率模型是生成模型,非概率模型是判别模型。

    似然性:似然函数可以理解为一种后验概率,即通过已经发生的现象和条件来推断对应事件发生的概率是否合理,是一种完全基于实验事实通过可能发生的概率比较中取最大概率(有最大可能)来判断条件的方法。

    比如A:抛硬币两次正面朝上是已知现象,那么在这种情况下我们假设硬币正面向上的概率为θ, 那么推断发现如果θ为1则A事件发生的可能性最大,

    那么我们就趋向于相信硬币正面朝上的概率为1,如果抛掷过程中出现了反面,那么θ也发生改变。在像logistic回归这样的概率模型中,我们对预测结果的概率分布进行分析然后预测。

  • 相关阅读:
    c#冒泡排序
    C# 虚方法(virtual)覆盖(override) 隐藏(new) 重载
    Javascript 大括号
    C# const.static.readonly.
    热点链接(img map area)
    WeiBo返回错误码的二种方式
    Cookie跨域操作
    synchronized(this)与synchronized(class)
    线程安全场景备忘
    git新建一个分支setupstream
  • 原文地址:https://www.cnblogs.com/zy1120192493/p/13213627.html
Copyright © 2011-2022 走看看