zoukankan      html  css  js  c++  java
  • 中文文本信息处理的原理与应用读书笔记1

    概论
    自然语言理解的发展历史主要分为三个阶段
    • 以关键词匹配为主流的早期历史
    使用模式匹配技术,一个输入模式对应着一个或多个输出模式。
    例如模式
    I remember * -> why do you remember *
    优点是对输入句子的限制较小,但分析往往会不精准,没有真正考虑语义
    让我想起了小黄鸡
    • 以句法-语义分析为主流的中期历史
              在限定情景中的自然语言处理,比如书中给出的语音控制机器手臂操作玩具积木
              我对这块没有太多想法,最讨厌语义分析了。
    • 以周向实用化和工程化为特征的近期历史
    未来的发展趋势主要如下:
    1.基于规则和基于统计的研究方法的结合
    这个好理解,人工经验和数据分析的结合,不单单是自然语言处理,很多方向的发展都有这个趋势
    2.自然语言理解在语义网中广泛应用
    3.与生物信息学的结合
    2和3表示不懂,略过
     
    自动分词
    中文分词是开发文本挖掘的核心技术,以支持对文本信息进行管理、分析、
    检索等各种应用。其主要难点是分词歧义以及未登录词的召回问题。
     
    主要的切词方法如下:
    基于多字符串匹配的分词方法
    • 根据匹配方向的不同可以分为 正向匹配与逆向匹配
    因为较多的分词歧义都是过段结束匹配造成的,所以逆向匹配准确率往往比正向高。
    • 根据匹配长度的优先级不同可以分为 最长匹配和最短匹配
    同理,最长匹配的准确率比最短匹配高
    • 双向最大匹配法
    据说通过双向最大匹配可以进一步提升准确率,可能还是因为上面的原因
    • 最短路径法
    这种方法将分词问题归结为图论中的最短路径问题,即一个词对应一条有向边,
    词的一个序列对应一条有向路径。对给定的待分词的汉字串S,分词问题就是要找到一条最短的有向路径
    使得这条路径上的边所对应的词的序列为S。这样就可用图论中的有关算法来求解。
    路径最短意味着切分后词的数量最少。这种方法很有新意,但我不太理解为什么分的越少越好。
    书上说符合汉语自身的规律。

    基于预料统计的分词方法
    • 可以对语料中相邻共现的各个字的组合的频率进行统计,计算他们的互现信息。计算两个汉字X,Y相邻的共现概率,当大于某一阈值时,便可认为构成一个词。这种方法其实就相当于从语料库里构建词库。
    • 也可以根据语料计算各种分词结果的概率,取最大的
     
    参考《中文文本信息处理的原理与应用》,苗夺谦
  • 相关阅读:
    Atitit.Java exe bat  作为windows系统服务程序运行
    Atitit. Object-c语言 的新的特性  attilax总结
    Atitit. Object-c语言 的新的特性  attilax总结
    Atitit。Time base gc 垃圾 资源 收集的原理与设计
    Atitit。Time base gc 垃圾 资源 收集的原理与设计
    Atitit.go语言golang语言的新的特性  attilax总结
    Atitit.go语言golang语言的新的特性  attilax总结
    Atitit.pdf 预览 转换html attilax总结
    Atitit.pdf 预览 转换html attilax总结
    Atitit.office word  excel  ppt pdf 的web在线预览方案与html转换方案 attilax 总结
  • 原文地址:https://www.cnblogs.com/2010Freeze/p/3337377.html
Copyright © 2011-2022 走看看