zoukankan      html  css  js  c++  java
  • 【语言处理与Python】6.7为语言模式建模

    分类器可以帮助我们理解自然语言中存在的语言模式,允许我们建立明确的模型捕捉这些模式。

    这些明确的模型有两个重要的目的:

    1、帮助我们了解语言模式

    2、可以被用来预测新的语言数据

    模型告诉我们什么?

    描述性模型捕捉数据中的模式,但是它们并不提供任何有关数据包含这些模式的原因的信息。

    解释性模型试图捕捉造成语言模式的属性和关系。

    大多数语料库自动构建的模型是描述性模型,它可以告诉哪些特征与一个给定的模式或结构有关,但它们不一定能告诉我们这些特征和模式之间如何关联。

    小结

    -为语料库中的语言数据建模可以帮助我们理解语言模型,也可以用于预测新语言数据。
    - 有监督分类器使用加标签的训练语料库来建立模型,基于输入的特征,预测那个输入的
    标签。
    - 有监督分类器可以执行多种NLP任务,包括文档分类、词性标注、语句分割、对话行
    为类型识别以及确定蕴含关系和很多其他任务。
    - 训练一个有监督分类器时,你应该把语料分为三个数据集:用于构造分类器模型的训练
    集,用于帮助选择和调整模型特性的开发测试集,以及用于评估最终模型性能的测试集。
    - 评估一个有监督分类器时,重要的是你要使用新鲜的没有包含在训练集或开发测试集中
    的数据。否则,你的评估结果可能会不切实际地乐观。
    - 决策树可以自动地构建树结构的流程图,用于为输入变量值基于它们的特征加标签,虽
    然它们易于解释,但不适合处理特性值在决定合适标签过程中相互影响的情况。
    - 在朴素贝叶斯分类器中,每个特征决定应该使用哪个标签的贡献是独立的。它允许特征
    值间有关联,但当两个或更多的特征高度相关时将会有问题。
    - 最大熵分类器使用的基本模型与朴素贝叶斯相似;不过,它们使用了迭代优化来寻找使
    训练集的概率最大化的特征权值集合。
    - 大多数从语料库自动构建的模型都是描述性的,也就是说,它们让我们知道哪些特征与
    给定的模式或结构相关,但它们没有给出关于这些特征和模式之间的因果关系的任何信息。

  • 相关阅读:
    Java for循环打印九九乘法表
    java判断回文数代码实例
    java 判断回文数实例代码
    价值
    Java代码实例 判断这个数是否是素数
    Java for循环求水花仙数
    java代码实例 使用switch实现简易的计算器(实现加减乘除)
    java基础代码实例 求1100之间的奇数和偶数
    Java 判断闰年代码实例
    可以将控制台输出信息保存到本地的Log4j配置
  • 原文地址:https://www.cnblogs.com/createMoMo/p/3101675.html
Copyright © 2011-2022 走看看