zoukankan      html  css  js  c++  java
  • Stanford Word Segmenter使用

    1,下载 Stanford Word Segmenter软件包;

    Download Stanford Word Segmenter version 2014-06-16

    2,在eclipse上建立一个Project  StanfordSegmenter。解压Stanford Word Segmenter软件包,将其中的data,arabic,test.sipe.utf8文件夹复制到项目下。

    3,添加需要的jar包,seg.jar  ,  stanford-segmenter-3.4-javadoc.jar , stanford-segmenter-3.4-sources.jar.

      步骤:点击Project->Properties->Java Bulid Path->Libraries->Add External Jars

    4,在项目下,建一个com.Seg包,在包下建立一个SegDemo.java,将解压出来的SegDemo的内容复制进去。

    5,设置运行环境。

    运行SegDemo,Run As-> Run Configurations,运行需要传入参数,test.simp.utf8.

    由于Stanford-Sementer占用的内存比较大,所以需要设置VM arguments,不然就会超内存。

    如果机子是64bit的可以设为,-mx2g。查看解压出来的segment.sh 文件, 可以看到JAVACMD语句的参数设置。

    6,运行结果如下,可以看出分词的效果。

    7,关联源码,进一步查看分词建模的细节。单步运行观察各个函数的功能。

      7.1 对loadClassifierNoExceptions(也可以其他函数)点击 ctrl+右键观察源码。结果显示Source  not Found.

      

      7.2 关联源码,Attach Source->Extenal File->然后将最开始解压包中的stanford-segmenter-3.4-sources.jar包加进去。

      7.3再次点击,就可以看得源码。

      

    8,如果是中文版的eclipse 需要改成英文版的。中文版的没有Attach Source提醒。改变步骤如下:

      8.1在eclipse的安装目录里找到eclipse.ini文件,编辑打开,在文件的后面加上 -Duser.language=en这句话,elipse就变成英文版的了

          

      

     9,Stanford NLP 地址

    http://nlp.stanford.edu/
  • 相关阅读:
    iOS:真机调试
    iOS:MBProgressHUD的基本使用
    CocoaPods安装小步骤
    PictureBox 双缓冲防止闪屏
    两招小办法对付宝宝发烧、咳嗽。超级管用哈
    (转)经纬度坐标转换为屏幕坐标
    解决eclipse不识别Android手机的问题
    利用FFmpeg将RTSP转码成RTMP发布在RED5
    vlc做转发的命令
    字符编码
  • 原文地址:https://www.cnblogs.com/qianwen/p/3854809.html
Copyright © 2011-2022 走看看