zoukankan      html  css  js  c++  java
  • 如何在java中去除中文文本的停用词

    1.  整体思路

    第一步:先将中文文本进行分词,这里使用的HanLP-汉语言处理包进行中文文本分词。

    第二步:使用停用词表,去除分好的词中的停用词。

    2.  中文文本分词环境配置

    使用的HanLP-汉语言处理包进行中文文本分词。

    ·HanLP-汉语言处理包下载,可以去github上下载

    ·HanLP 的环境配置有两种方式:方式一、Maven;方式二、下载jar、data、hanlp.properties。

    ·官方环境配置步骤也可以在github上查询到。

    ·环境配置好后,java使用HanLP进行中文分词文档如下:hanlp.linrunsoft.com/doc.html

    3.  下载停用词表

    停用词表可以去百度或者其他搜索引擎检索一份,很容易就找到!

    4.  去除停用词工具类

    使用这个工具类的之前,请先完成中文文本分词环境配置,并测试一下。停用词 .txt 文件路径请修改为自己的本地路径。

     

    1

    5.  工具类测试

    5.1  测试代码

    public class test {

        public static void main(String args[]) {

            try {

                System.out.println(FormatUtil.RemovalOfStopWords("床前明月光,疑是地上霜。举头望明月,低头思故乡。"));

            } catch (IOException e) {

                e.printStackTrace();

            }

        }

    5.2  测试结果

     

  • 相关阅读:
    Linux ssh命令详解
    25个必须记住的SSH命令
    什么是SSH 以及常见的ssh 功能
    SSH简介及两种远程登录的方法
    SSH协议(1)-工作原理及过程
    Linux下查看文件内容的命令
    Spring MVC @RequestMapping注解详解
    Spring MVC入门示例
    Spring 基于xml配置方式的事务
    spring @Transactional注解参数详解
  • 原文地址:https://www.cnblogs.com/adnb34g/p/10794144.html
Copyright © 2011-2022 走看看