zoukankan      html  css  js  c++  java
  • Hanlp汉字转拼音使用python调用详解

     

    1、hanlp简介

    HanLP是一系列模型与算法组成的NLP工具包,由大快搜索主导并完全开源,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

    开源网址:HanLP: Han Language Processing

    但由于hanlp是用java来实现的,要在python中使用hanlp,只能通过调用pyhanlp这个包来。

    但是pyhanlp里面有一些功能仍然不支持python直接调用,比如汉字转拼音,这时候就需要从python中启动jvm并指定Hanlp的jar路径来使用其他功能了。

    2、下载并配置文件

    1)从开源网址中下载jar、data、hanlp.properties并修改配置文件:

    1、下载:data.zip

    下载后解压到任意目录,接下来通过配置文件hanlp.properties告诉HanLP数据包的位置。

    data

    ├─dictionary

    └─model

    用户可以自行增删替换,如果不需要句法分析等功能的话,随时可以删除model文件夹。

    3、下载jar和配置文件:hanlp-release.zip

    (1)配置文件hanlp.properties的作用是告诉HanLP数据包的位置,只需修改第一行为data的父目录即可:

    root=D:/JavaProjects/HanLP/

    比如data目录是/Users/hankcs/Documents/data,那么root=/Users/hankcs/Documents/ 。

    2)从python中启动jvm以及添加jar包路径

     

    其中-Djava.class.path是用来添加jar包到classpath中,然后用startJVM来启动jvm。

    startJVM第一个参数是系统内的jvm位置,第二个为*arg参数,此处放置classpath。

     

    以上得到的是java的ArrayList类型,需要将他装换为string类型:

     

    结果如下:

     

    4、最后记得关闭JVM

     

    --------------------

     

  • 相关阅读:
    火狐浏览器标签之间切换的快捷键
    LeetCode 69. x 的平方根
    LeetCode 51. N皇后
    win 10 自带 Ubuntu 系统的文件位置
    LeetCode 122. 买卖股票的最佳时机 II
    LeetCode 169. 求众数
    LeetCode 50. Pow(x, n)
    LeetCode 236. 二叉树的最近公共祖先
    LeetCode 235. 二叉搜索树的最近公共祖先
    LeetCode 98. 验证二叉搜索树
  • 原文地址:https://www.cnblogs.com/adnb34g/p/10563223.html
Copyright © 2011-2022 走看看