zoukankan      html  css  js  c++  java
  • Flink与HanLP集成使用

      自然语言处理是机器学习的一个重要分支,在智能翻译、智能问答、舆情监控、ChatOps等都有很好的应用场景,目前比较好的一个开源实现工具是何晗大神的HanLP,主页(http://hanlp.com/),GitHub项目(https://github.com/hankcs/HanLP),何大神还出了一本书《自然语言处理入门》,非常不错。

      由于工作需要,我们使用HanLP对监控平台收集到的异常信息进行聚类分析,以便找出导致系统出现故障的可能的根因异常,以下是将HanLP与Flink结合使用时的几个点,愿与感兴趣的同行一起探讨。

    一、开发期

      1.在pom.xml中引入HanLP的jar包:

            <dependency>
                <groupId>com.hankcs</groupId>
                <artifactId>hanlp</artifactId>
                <version>portable-1.7.6</version>
                <scope>provided</scope>
            </dependency>

    二、运行期

    假设Flink安装在:/usr/flink

    1.将hanlp-1.7.6.jar部署到Flink集群每个安装目录下的lib文件夹中

    /usr/flink/lib

    2.在Flink安装目录下建立hanlp文件夹(名字可以自己定义)

    /usr/flink/hanlp

    3.将下载的HanLP需要的data.zip解压后,放到步骤2的文件夹中

    /usr/flink/halp/data/.....

    】HanLP默认是本地文佳加载词典和模型的,如果把data.zip文件传到了其他存储介质,需要实现com.hankcs.hanlp.corpus.io.IIOAdapter接口以在不同的平台(Hadoop、Redis等)上运行HanLP

    4.在/etc/profile中建立HANLP_ROOT环境变量,指向步骤2对应的文件夹

    export HANLP_ROOT=/usr/flink/hanlp

     【】使用环境变量,可以不需要配置hanlp.properties

    5.使设置的环境变量生效

     source /etc/profile

  • 相关阅读:
    SQL Server 限制IP登陆
    提高MSSQL数据库读取速度,降低CPU损耗
    Windows Azure 平台开发基础系列视频
    AutoFac使用方法总结:Part III
    Python学习笔记 01 快速入门
    黑苹果~~
    Python学习笔记 02 Python基础
    Python学习笔记 04 数字
    Python学习笔记 03 Python对象
    Gridview导出excel范例
  • 原文地址:https://www.cnblogs.com/liugh/p/12317475.html
Copyright © 2011-2022 走看看