zoukankan      html  css  js  c++  java
  • Assignment 1:Chinese Text Data Processing.

    记录过程。

    Lucene分词:http://blog.csdn.net/cyxlzzs/article/details/7999212

    Lucene自定义词典:http://lilongbao.blog.163.com/blog/static/2128760512013689194583/

    注意点:.dic文件要以utf-8保存

    不过这里有一个疑惑:

    .doc文件如果改为GBK保存,IKAnalyzer.cfg.xml文件的开头:<?xml version="1.0" encoding="UTF-8"?> 改为 <?xml version="1.0" encoding="GBK"?>  再运行,.java文件效果无效,也就自定义停止词典无效。

    下面就是.txt文件的java读写实现。

    java读取TXT文件的方法:http://www.cnblogs.com/manongxiaojiang/archive/2012/10/13/2722068.html

    java逐行读取和写入文本文件txt:http://blog.csdn.net/softimes/article/details/7225879

    已经改写,实现txt的java读入和写出。

    将10个txt文件路径以String 类型读取,每个文件分词,每10个一行输出到新路径。

  • 相关阅读:
    四则运算的改进
    小学四则运算
    基于控制台的小学四则运算
    软件工程实践项目课程的自我目标
    课程总结
    个人作业 软件案例分析
    第一次技术博客
    结对第二次作业
    软工2
    软件工程第一次作业
  • 原文地址:https://www.cnblogs.com/Deribs4/p/4979255.html
Copyright © 2011-2022 走看看