zoukankan      html  css  js  c++  java
  • 中文分词之逆向最大匹配算法结合时间位置进行分词

           之前基于Lucene分词组件探索了按时间位置进行中文分词的算法,中文分词方面采用了最大逆向匹配算法,由于时间信息保存在一个List中,当每个词被切割出来时,其时间信息将会同时按序提取。将分词结果写入倒排索引的词表,时间信息写入到倒排表中的offset属性中。停词表和词汇表都保存在HashSet中。

    逆向最大匹配法算法如下所示:
    逆向匹配法思想与正向一样,只是从右向左切分,这里举一个例子:
    输入例句:S1="计算语言学课程有意思" ;
    定义:最大词长MaxLen = 5;S2= " ";分隔符 = “/”;
    假设存在词表:…,计算语言学,课程,意思,…;
    最大逆向匹配分词算法过程如下:
    (1)S2="";S1不为空,从S1右边取出候选子串W="课程有意思";
    (2)查词表,W不在词表中,将W最左边一个字去掉,得到W="程有意思";
    (3)查词表,W不在词表中,将W最左边一个字去掉,得到W="有意思";
    (4)查词表,W不在词表中,将W最左边一个字去掉,得到W="意思"
    (5)查词表,“意思”在词表中,将W加入到S2中,S2=" 意思/",并将W从S1中去掉,此时S1="计算语言学课程有";
    (6)S1不为空,于是从S1左边取出候选子串W="言学课程有";
    (7)查词表,W不在词表中,将W最左边一个字去掉,得到W="学课程有";
    (8)查词表,W不在词表中,将W最左边一个字去掉,得到W="课程有";
    (9)查词表,W不在词表中,将W最左边一个字去掉,得到W="程有";
    (10)查词表,W不在词表中,将W最左边一个字去掉,得到W="有",这W是单字,将W加入到S2中,S2=“ /有 /意思”,并将W从S1中去掉,此时S1="计算语言学课程";
    (11)S1不为空,于是从S1左边取出候选子串W="语言学课程";
    (12)查词表,W不在词表中,将W最左边一个字去掉,得到W="言学课程";
    (13)查词表,W不在词表中,将W最左边一个字去掉,得到W="学课程";
    (14)查词表,W不在词表中,将W最左边一个字去掉,得到W="课程";
    (15)查词表,“意思”在词表中,将W加入到S2中,S2=“ 课程/ 有/ 意思/”,并将W从S1中去掉,此时S1="计算语言学";
    (16)S1不为空,于是从S1左边取出候选子串W="计算语言学";
    (17)查词表,“计算语言学”在词表中,将W加入到S2中,S2=“计算语言学/ 课程/ 有/ 意思/”,并将W从S1中去掉,此时S1="";
    (18)S1为空,输出S2作为分词结果,分词过程结束。

    三年程序员,专注语音文本分析、大数据挖掘、预训练模型及知识图谱相关技术的探索
  • 相关阅读:
    JSP/Servlet开发——第二章 JSP数据交互(二)
    JSP/Servlet开发——第一章 动态网页基础
    Java OOP——第三章 多态
    Java OOP——第二章 继承
    Java OOP——第一章 对象和封装
    Java OOP——第四章 异常
    Linux 系统启动过程
    动画链接
    js判断浏览器类型
    localStorage封装
  • 原文地址:https://www.cnblogs.com/jetHu/p/8572276.html
Copyright © 2011-2022 走看看