zoukankan      html  css  js  c++  java
  • 中文分词技术

      在 语言理解中,词是最小的能够独立活动的有意义的语言成分。将词确 定下来是理解自然语言的第一步,只有跨越了这一步,中文才能像英 文那样过渡到短语划分、概念抽取以及主题分析,以至自然语言理 解,最终达到智能计算的最高境界。因此,每个NLP工作者都应掌握分 词技术。

    主要内容:

    ●中文分词的概念与分类

    ●常用分词(包括规则分词、统计分词以及混合分词等)的技术介绍

    ●开源中文分词工具——Jieba简介
    ●实战分词之高频词提取

    3.1 中文分词简介

    在英语中,单词本身就 是“词”的表达,一篇英文文章就是“单词”加分隔符(空格)来表示的, 而在汉语中,词以字为基本单位的,但是一篇文章的语义表达却仍然 是以词来划分的。因此,在处理中文文本时,需要进行分词处理,将 句子转化为词的表示。这个切词处理过程就是中文分词,它通过计算 机自动识别出句子的词,在词间加入边界标记符,分隔出各个词汇。 整个过程看似简单,然而实践起来却很复杂,主要的困难在于分词歧 义。以NLP分词的经典语句举例,“结婚的和尚未结婚的”,应该分词 为“结婚/的/和/尚未/结婚/的”,还是“结婚/的/和尚/未/结婚/的”?这个由 人来判定都是问题,机器就更难处理了。此外,像未登录词、分词粒 度粗细等都是影响分词效果的重要因素。

    自中文自动分词被提出以来,历经将近30年的探索,提出了很多方 法,可主要归纳为“规则分词”“统计分词”和“混合分词(规则+统 计)”这三个主要流派。规则分词是最早兴起的方法,主要是通过人工 设立词库,按照一定方式进行匹配切分,其实现简单高效,但对新词 很难进行处理。随后统计机器学习技术的兴起,应用于分词任务上 后,就有了统计分词,能够较好应对新词发现等特殊场景。然而实践中,单纯的统计分词也有缺陷,那就是太过于依赖语料的质量,因此实践中多是采用这两种方法的结合,即混合分词。

    3.2 规则分词

    基于规则的分词是一种机械分词方法,主要通过维护词典,在切分语句时,将语句的每个字符串与词典中的词进行逐一匹配。按照匹配切分的方式,主要有正向最大匹配发,逆向最大匹配法,和双向最大匹配法三种方法。

    3.3 统计分词

    随着大规模语料库的建立,统计机器学习方法的研究和发展,基于统计的中文分词算法渐渐成为主流。其主要思想是把每个词看做是由词的最小单位的各个字组成的,如果相连的字在不同的文本中出现的次数越多,就证明这相连的字很可能就是一个词。因此我们就可以利用字与字相邻出现的频率来反应成词的可靠度,统计语料中相邻共现的各个字的组合的频度,当组合频度高于某一个临界值时,我们便可认为此字组可能会构成一个词语。

    基于统计的分词,一般要做如下两步操作:

    1)建立统计语言模型。

    2)对句子进行单词划分,然后对划分结果进行概率计算,获得概率最 大的分词方式。这里就用到了统计学习算法,如隐含⻢尔可夫

    (HMM)、条件随机场(CRF)等。

    3.4混合分词

    最常用的方式就是先基于词典的方式进行分词,然后再 用统计分词方法进行辅助。如此,能在保证词典分词准确率的基础 上,对未登录词和歧义词有较好的识别,Jieba分词工具便 是基于这种方法的实现。

     

  • 相关阅读:
    Codeforces Round #649 (Div. 2) D. Ehab's Last Corollary
    Educational Codeforces Round 89 (Rated for Div. 2) E. Two Arrays
    Educational Codeforces Round 89 (Rated for Div. 2) D. Two Divisors
    Codeforces Round #647 (Div. 2) E. Johnny and Grandmaster
    Codeforces Round #647 (Div. 2) F. Johnny and Megan's Necklace
    Codeforces Round #648 (Div. 2) G. Secure Password
    Codeforces Round #646 (Div. 2) F. Rotating Substrings
    C++STL常见用法
    各类学习慕课(不定期更新
    高阶等差数列
  • 原文地址:https://www.cnblogs.com/wzf-Learning/p/12606527.html
Copyright © 2011-2022 走看看