zoukankan      html  css  js  c++  java
  • 中文文本信息处理的原理与应用读书笔记1

    概论
    自然语言理解的发展历史主要分为三个阶段
    • 以关键词匹配为主流的早期历史
    使用模式匹配技术,一个输入模式对应着一个或多个输出模式。
    例如模式
    I remember * -> why do you remember *
    优点是对输入句子的限制较小,但分析往往会不精准,没有真正考虑语义
    让我想起了小黄鸡
    • 以句法-语义分析为主流的中期历史
              在限定情景中的自然语言处理,比如书中给出的语音控制机器手臂操作玩具积木
              我对这块没有太多想法,最讨厌语义分析了。
    • 以周向实用化和工程化为特征的近期历史
    未来的发展趋势主要如下:
    1.基于规则和基于统计的研究方法的结合
    这个好理解,人工经验和数据分析的结合,不单单是自然语言处理,很多方向的发展都有这个趋势
    2.自然语言理解在语义网中广泛应用
    3.与生物信息学的结合
    2和3表示不懂,略过
     
    自动分词
    中文分词是开发文本挖掘的核心技术,以支持对文本信息进行管理、分析、
    检索等各种应用。其主要难点是分词歧义以及未登录词的召回问题。
     
    主要的切词方法如下:
    基于多字符串匹配的分词方法
    • 根据匹配方向的不同可以分为 正向匹配与逆向匹配
    因为较多的分词歧义都是过段结束匹配造成的,所以逆向匹配准确率往往比正向高。
    • 根据匹配长度的优先级不同可以分为 最长匹配和最短匹配
    同理,最长匹配的准确率比最短匹配高
    • 双向最大匹配法
    据说通过双向最大匹配可以进一步提升准确率,可能还是因为上面的原因
    • 最短路径法
    这种方法将分词问题归结为图论中的最短路径问题,即一个词对应一条有向边,
    词的一个序列对应一条有向路径。对给定的待分词的汉字串S,分词问题就是要找到一条最短的有向路径
    使得这条路径上的边所对应的词的序列为S。这样就可用图论中的有关算法来求解。
    路径最短意味着切分后词的数量最少。这种方法很有新意,但我不太理解为什么分的越少越好。
    书上说符合汉语自身的规律。

    基于预料统计的分词方法
    • 可以对语料中相邻共现的各个字的组合的频率进行统计,计算他们的互现信息。计算两个汉字X,Y相邻的共现概率,当大于某一阈值时,便可认为构成一个词。这种方法其实就相当于从语料库里构建词库。
    • 也可以根据语料计算各种分词结果的概率,取最大的
     
    参考《中文文本信息处理的原理与应用》,苗夺谦
  • 相关阅读:
    java序列化和反序列化使用总结
    什么是N+1查询?
    Oracle insert /*+ APPEND */原理解析
    Oracle redo与undo
    MongoDB(三)-- 执行JS、界面工具
    几种Bean的复制方法性能比较
    Kafka(三)-- Kafka主要参数
    Kafka(二)-- 安装配置
    Kafka(一)-- 初体验
    Nginx(十二)-- Nginx+keepalived实现高可用
  • 原文地址:https://www.cnblogs.com/2010Freeze/p/3337377.html
Copyright © 2011-2022 走看看