zoukankan html css js c++ java

正向最大匹配算法

# -*- coding: utf-8 -*-
# MM
# 使用正向最大匹配算法实现中文分词
dic = []
MAX_LENGTH = 5
 
def init():
    """
    读文件
    获取中文词典
    :return:
    """
    input = open("test.txt")
    lines = input.readlines()
    for line in lines:
        temp = line.split(',')
        dic.append(temp[0])
    for d in dic:
        print(d)
 
def if_contain(words):
    """
    判断当前词在词典中是否存在
    :param words:
    :return:
    """
    flag = False
    for d in dic:
        if d == words:
            flag = True
            break
    return flag

def spl(sentence):
    """
    正向最大匹配算法的主要实现部分
    从后向前切割字符串，直到切割出的子串与词典中的词匹配
    :param sentence:
    :return:
    """
    result = ''
    words = []
 
    while len(sentence) > 0:
        except_flag = False
        for i in range(MAX_LENGTH, 0, -1):
            temp = sentence[:i]    # 中文字符串切割方式
            print(i,temp)
            flag = if_contain(temp)
            if flag:
                words.append(temp)
                sentence = sentence[i:]
                except_flag = True
                break
        if not except_flag:
            # 判断当前字符串是否在词典中并不存在，若该字符串从头切割到尾都没有词典中的词则认为无法切割并且
            # 词典中不存在，此时直接将该词当成切割后的结果加入结果列表
            words.append(sentence)
            break
    for w in words:
        result += (w + '/')
    return result

def main():
    """
    与用户交互接口
    :return:
    """
    init()
    while True:
        input_str = input(">")
        if not input_str:
            break
        result = spl(input_str)
        print("分词结果为：")
        print(result)
 
 
if __name__ == "__main__":
    main()

查看全文

相关阅读:
系统设计与架构笔记:对我新公司网站的技术架构初解
 与国内某知名互联网公司交流后的心得
 系统架构：Web应用架构的新趋势---前端和后端分离的一点想法
 为什么做java的web开发我们会使用struts2，springMVC和spring这样的框架?
我设计的网站的分布式架构
 Python Day 46 前端、HTML5介绍、HTML标签、标签的嵌套规则、CSS3介绍、CSS代码中书写位置（重点）、CSS基础选择器、
Python Day 45 手撸ORM框架
 Python Day 44 Mysql数据库备份及优化(六)
Python Day 43 Mysql基础语法（五）sqlalchemy、创建表、增删改查、高级查询操作、正向反向查询
 Python Day 42 Mysql基础语法（四）、存储引擎、索引、慢日志查询、普通日志记录(general log)、权限管理、explain工具

原文地址：https://www.cnblogs.com/ywqtro/p/14783514.html