zoukankan      html  css  js  c++  java
  • NLP学习笔记07---专家系统、机器学习、朴素贝叶斯、评估的标准(精确率、召回率)

    1.学习的两种主流方式

    专家系统基于概率的系统最根本的区别就是:数据量的不同

    数据量大则优先使用基于概率的系统;若数据量小或没有数据,则推荐使用专家系统。

    2.专家系统介绍

    专家系统的特点:能够处理不确定性、知识的表示、可解释性、可以做知识推理

    3.机器学习入门介绍

    (1)定义

    (2)机器学习的分类

    两大流派:<1>有监督的(Supervised Learning,即我们有一些训练数据,通过训练数据去构建一个模型)、无监督的(unsupervised Learning)  <2>生成模型(generative model)、判别模型(discriminative)

    <1>有监督学习

    以情感分析为例,下图解释的有监督训练的模型

    首先,给定一个语料库(即训练数据),该语料库包含文本(x)及其情感倾向判断结果(y),通过训练语料库,得到函数f,用来进行判别用户新的输入的情感倾向

    下面是经典的有监督的算法:

    <2>无监督学习

    所给的训练数据只包含x,不含有y

    常用的无监督学习的算法

    <3>生成模型(generative model)和判别模型(discriminative model)

    生成模型通过已经训练好的模型,可以用来生成图片、音乐、文本等,例如生成模型会学习猫、狗的特征,再利用学到的特征去判断用户输入的是猫或狗的概率P。

    (3)模型的构建

    <1>一般流程

    特征工程耗时非常大,也是模型最重要的部分。

    <2>端到端的模型(end to end learning)

    <3>模型构建时的数据划分

    为了更好的构建模型,一般将数据分为训练数据和测试数据。

    4.朴素贝叶斯(Naive Bayes)

    (1)问题引出

    具体案例1如下:

    下图计算了购买在垃圾邮件和正常邮件里出现的概率。

    判断新邮件是否是垃圾邮件:

    下图中,利用贝叶斯定理对第一个不等式进行转化

    P(正常)为先验概率(可以根据样本直接获得)

    上图中,P(正常)=24/(24+12)=2/3

    具体案例2:

    下图是朴素贝叶斯的具体应用案例。

    在计算P(点击/垃圾)时,应用了平滑add-one smoothing

     5.评估的方法

    应用案例:

    accuracy=3/6=0.5

    precision=3/5=0.6

    recall=3/4=0.75

  • 相关阅读:
    integration computation in R,computing the accumulation,derivatives,partial derivatives of various higher order function
    some transcripts quantification brief comprehensions
    易混淆的统计概念
    Robust detection of alternative splicing in a population of single cells
    窗口随鼠标移动
    jquery的fade方法实现淡入淡出
    jquery动画效果的隐藏和显示
    jquery滑进滑出效果
    jquery通过extend关键字自定义方法
    jquery的clon
  • 原文地址:https://www.cnblogs.com/luckyplj/p/12767554.html
Copyright © 2011-2022 走看看