zoukankan      html  css  js  c++  java
  • 【HanLP】HanLP中文自然语言处理工具实例演练

    HanLP中文自然语言处理工具实例演练

    作者:白宁超

    2016年11月25日13:45:13

    摘要:HanLP是hankcs个人完成一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 在提供丰富功能的同时,HanLP内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布,使用非常方便,同时自带一些语料处理工具,帮助用户训练自己的语料。笔者坚定支持开源的项目,本文初衷是使用自然语言处理工具进行毕设的基本操作。后来发现HanLP真心的贴心,代码Java编写,文档结构严谨、目录清晰都是接地气的注释和解释。文档大家参照官方即可,本文篇一介绍HanLP相关的资料链接,篇二介绍HanLP的操作实战部分,后续文章进行源码分析。(本文原创编著,转载注明出处:HanLP中文自然语言处理工具实例演练

    目录

    【HanLP】HanLP资料链接汇总(1)

    【HanLP】HanLP中文自然语言处理工具实例演练(2)

    【HanLP】HanLP自然语言处理源码分析研究(3)

    1 MyEclipse安装HanLP


    【注】本文主注重方法调用和操作,后续文章注重原理和源码分析

    具体操作扩展步骤参看官方文档,本文是作者操作记录,便于实际应用。HanLP将数据与程序分离,给予用户自定义的自由。 HanLP由三部分组成:HanLP = .jar + data + .properties ,请前往 项目主页 下载这三个部分。

    1 其中jar、data.zip、hanlp.properties是安装配置文件,橘色框为源码。

    2 打开MyEclipse新建项目HanLP,将jar放入lib包并构建依赖,data.zip、hanlp.properties均放入HanLP主目录下。

    3 hanlp.properties进行修改,只需要改root=yourpath/HanLP即可

    4 将修改后的hanlp.properties放入工作空间中 HanLP/bin下一份即可完成

    5 测试分词:

    如上即在MyEclipse下完成HanLP安装,需要什么功能,只需要HanLP点就可以提示基本功能。这里说明一点,data下面model主要用于句法分析的,默认情况下原作者将其分割开了,需要的自行下载即可。

    2 分词操作


     

    3 词典


     

    4 命名实体识别


     

    5 篇章理解


     

    6 繁简拼音转换


     

    7 依存句法分析


     

    8 智能推荐


     

    9 Lucene插件


     

    10 其他文档功能


     

  • 相关阅读:
    解题:POI 2008 Plot purchase
    1807. 斐波纳契数列简单
    1745. 单调数列
    1700. 增减字符串匹配
    1665. 计算数字
    1523. 分区数组
    1517. 最大子数组
    1598. 两句话中的不常见单词
    1594. 公平的糖果交换
    1510. 亲密字符串(回顾)
  • 原文地址:https://www.cnblogs.com/baiboy/p/6103014.html
Copyright © 2011-2022 走看看