zoukankan      html  css  js  c++  java
  • python-jieba 安装+分词+定位

    安装

    https://github.com/fxsjy/jieba

    下载安装包 解压后 进入文件夹 cmd运行:Python setup.py install

    使用:

    分词:(test.py)

    import jieba
    
    result = jieba.cut("我叫张海鸥")
    
    print("/".join(result))
    
    >>>我/叫/张/海鸥

    分词+标签:(test_bug,py)

    import jieba
    import jieba.posseg as pseg
    words=pseg.cut("又跛又啞")
    for w in words:
        print(w.word,w.flag)

    输出:

    官方说明:主要功能

    1. 分词

    • jieba.cut 方法接受三个输入参数: 需要分词的字符串;cut_all 参数用来控制是否采用全模式;HMM 参数用来控制是否使用 HMM 模型
    • jieba.cut_for_search 方法接受两个参数:需要分词的字符串;是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细
    • 待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意:不建议直接输入 GBK 字符串,可能无法预料地错误解码成 UTF-8
    • jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator,可以使用 for 循环来获得分词后得到的每一个词语(unicode),或者用
    • jieba.lcut 以及 jieba.lcut_for_search 直接返回 list
    • jieba.Tokenizer(dictionary=DEFAULT_DICT) 新建自定义分词器,可用于同时使用不同词典。jieba.dt 为默认分词器,所有全局分词相关函数都是该分词器的映射。

    代码示例

    # encoding=utf-8
    import jieba
    
    seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
    print("Full Mode: " + "/ ".join(seg_list))  # 全模式
    
    seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
    print("Default Mode: " + "/ ".join(seg_list))  # 精确模式
    
    seg_list = jieba.cut("他来到了网易杭研大厦")  # 默认是精确模式
    print(", ".join(seg_list))
    
    seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造")  # 搜索引擎模式
    print(", ".join(seg_list))

    输出:

    【全模式】: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学
    【精确模式】: 我/ 来到/ 北京/ 清华大学
    【新词识别】:他, 来到, 了, 网易, 杭研, 大厦    (此处,“杭研”并没有在词典中,但是也被Viterbi算法识别出来了)
    【搜索引擎模式】: 小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造

    传入文件名参数进行分割并计时:(test_file.py)
    import time
    import sys
    sys.path.append("../")
    import jieba
    jieba.initialize()
    
    url = sys.argv[1]
    content = open(url,"rb").read()
    t1 = time.time()
    words = "/ ".join(jieba.cut(content))
    
    t2 = time.time()
    tm_cost = t2-t1
    
    log_f = open("1.log","wb")
    log_f.write(words.encode('utf-8'))
    log_f.close()
    
    print('cost ' + str(tm_cost))
    print('speed %s bytes/second' % (len(content)/tm_cost))

    定位词在文本中的位置:

    • 注意,输入参数只接受 unicode
    import jieba
    
    g_mode="default"
    
    global g_mode
    result = jieba.tokenize(u'在1号店能买到小S和大S八卦的书。')  # result = jieba.tokenize(test_sent,mode=g_mode,HMM=False)
    for tk in result:
      print("word %s		 start: %d 		 end:%d" % (tk[0],tk[1],tk[2])) 

    另外还可以调整词典 具体看 https://github.com/hosiet/jieba


  • 相关阅读:
    Java基础知识强化之集合框架笔记20:数据结构之 栈 和 队列
    Java基础知识强化之集合框架笔记19:List集合迭代器使用之 并发修改异常的产生原因 以及 解决方案
    模块已加载,但对dllregisterServer的调用失败
    sql回滚
    BAT 批处理脚本 教程
    shell脚本小技巧
    shell if
    REDHAT4.8安装yum
    Linux中文显示乱码解决
    Nginx配置文件详细说明
  • 原文地址:https://www.cnblogs.com/hozhangel/p/7977521.html
Copyright © 2011-2022 走看看