zoukankan      html  css  js  c++  java
  • Jieba分词原理与解析

    https://www.jianshu.com/p/dfdfeaa7d01f

    1 HMM模型

     
    image.png

    马尔科夫过程:

     
    image.png

     
    image.png
    • 以天气判断为例:引出隐马尔科夫模型


       
      image.png

       
      image.png

    以天气判断为例:由海藻信息推测天气

     
    image.png

    于是我们可以将这种类型的过程建模为有一个隐藏的马尔科夫过程和一个与这个隐藏马尔科夫过程概率相关的并且可以观察到的状态集合。这就是本文重点介绍的隐马尔可夫模型。
    隐马尔可夫模型(Hidden Markov Model) 是一种统计模型,用来描述一个含有隐含未知参数的马尔可夫过程。

    • 马尔科夫假设


       
      image.png

       
      image.png

       
      image.png

       
      image.png

    2 三个问题

     
    image.png

     
    image.png

     
    image.png

     
    image.png

     
    image.png

     
    image.png

     
    image.png
    • 源码架构
      ├── jieba
      │ ├── analyse
      │ │ ├── analyzer.py
      │ │ ├── idf.txt
      │ │ ├── init.py
      │ │ ├── textrank.py
      │ │ └── tfidf.py
      │ ├── _compat.py
      │ ├── dict.txt
      │ ├── finalseg
      │ │ ├── init.py
      │ │ ├── prob_emit.p
      │ │ ├── prob_emit.py
      │ │ ├── prob_start.p
      │ │ ├── prob_start.py
      │ │ ├── prob_trans.p
      │ │ └── prob_trans.py
      │ ├── init.py
      │ ├── main.py
      │ └── posseg
      │ ├── char_state_tab.p
      │ ├── char_state_tab.py
      │ ├── init.py
      │ ├── prob_emit.p
      │ ├── prob_emit.py
      │ ├── prob_start.p
      │ ├── prob_start.py
      │ ├── prob_trans.p
      │ ├── prob_trans.py
      │ └── viterbi.py
      ├── LICENSE
      ├── MANIFEST.in
      ├── README.md
      ├── setup.py
      └── test
     
    image.png

    3 Jieba源码分块解析

     
    image.png

     
    image.png

     
    image.png

     
    image.png

     
    image.png

     
    image.png

     
    image.png

     
    image.png

    Jieba应用实践

     
    image.png

     
    image.png

     
    image.png

     
    image.png

     
    image.png

    小白学习 无关利益

    感谢:

    隐马尔可夫模型(HMM)攻略
    HMM的(五个基本要素,三个假设,三个解决的问题)
    HMM学习最佳范例七:前向-后向算法3
    中文分词技术(中文分词原理)
    鬼吹灯文本挖掘
    https://blog.csdn.net/zhuzuwei/article/details/80775078



    作者:林桉
    链接:https://www.jianshu.com/p/dfdfeaa7d01f
    来源:简书
    简书著作权归作者所有,任何形式的转载都请联系作者获得授权并注明出处。
  • 相关阅读:
    Struts2的OGNL的用法
    详解DataTable DataSet以及与数据库的关系
    ModBus 协议
    STM32串口接收中断溢出问题解决
    STM32 GD32 时钟设置
    STM32 中断
    STM32 中断系统
    STM32中断系统(NVIC和EXTI)
    STM32中断系统
    GD32E230 GPIO 时钟
  • 原文地址:https://www.cnblogs.com/jfdwd/p/11094998.html
Copyright © 2011-2022 走看看