zoukankan      html  css  js  c++  java
  • 云计算项目实战 之分词管理

    第一部分 需求分析

    什么是中文分词

      中文分词  (  Chinese Word Segmentation)  指的是将一个汉字序列切分成一个一个单独的词
      中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果
    什么是庖丁词汇
      Paoding  (庖丁解牛分词)基于  Java  的开源中文分词组件,提供  lucene    solr  接口,具有极   高效率  和   高扩展性
      采用基于   不限制个数  的词典文件对文章进行有效切分,使能够将对词汇分类定义
      庖丁系统是个完全基于  lucene  的中文分词系统,它就是新建了一个  analyzer,  叫做  PaodingAnalyzer    这个  analyer 的核心任务就是生成一个可以切词  TokenStream 
      仅支持  Java  语言。
    功能需求
      庖丁词汇初始化
      分词表的基本维护与查询
    第二部分: 技术点
    安装与配置庖丁分词
      下载庖丁最新的  Jar
      https  ://code.google.com/p/paoding
      将字典文件装载到本地的某个文件夹
      例如  /home/test/  dic
        paoding-analysis.properties  放在  resources  文件下或者修改  jar  包内该配置文件,指定
      paoding.dic.home  =/home/test/  dic
    基本使用演示

    Analyzer a = new PaodingAnalyzer();

    String doctext = test  test;

     

    TokenStream token = a.tokenStream(doctext ,new StringReader(doctext));

     

    Token k = null;

     while((k = token.next != null){

        System.out.println(k);

      }

     

     

    关键词

    作用:生成用画像时候的一个元素

     

    Keyword_keywordId

    rowkey:

    keyword!`!keywordid

    C_FAMILY

    data


     

    Keywordid_keyword

    rowkey:

    keywordid!`!keyword

    C_FAMILY

    data

    部分 代码实现

    请参考视频和源码

     


    私塾在线原创独家云计算课程
  • 相关阅读:
    Leetcode 50.Pow(x,n) By Python
    Leetcode 347.前K个高频元素 By Python
    Leetcode 414.Fizz Buzz By Python
    Leetcode 237.删除链表中的节点 By Python
    Leetcode 20.有效的括号 By Python
    Leetcode 70.爬楼梯 By Python
    Leetcode 190.颠倒二进制位 By Python
    团体程序设计天梯赛 L1-034. 点赞
    Wannafly挑战赛9 C-列一列
    TZOJ Start
  • 原文地址:https://www.cnblogs.com/riasky/p/3478942.html
Copyright © 2011-2022 走看看