zoukankan      html  css  js  c++  java
  • 训练分词模型

    1. 训练的文件
    segmentor_train.txt

    文件内容,用空格分隔词

    中国 进出口 银行 与 中国 银行 加强 合作
    新华社 北京 十二月 二十六日 电 ( 记者 周根良 )
    
    今日 三 大 股指 均 小幅 低开,随后 沪深指数 在 权重板块 集体 拉升 的 带动 下 小幅 上涨,但 创业板 却 出现 持续性 的 下跌。
    午后 权重 跳水 导致 沪深指数 也 出现 一波杀跌,创业板 表现 却 迥异,盘中 没有 一波 拉升,今日 一度 大跌 3%。
    
    从 盘面 上 看,今日 权重 板块 依然 独领风骚,银行,券商,地产 大幅 上涨,但 保险板块 今日 表现 不佳,保险股 涨幅 平淡。
    今日 国信证券(002736),西部证券(002673)双双涨停,海通证券(600837),国元证券(000728),中信证券(600030)也有 不俗 表现。银行股 方面,仅有 一直 中信银行 (601998) 涨停。
    
    上证指数   涨跌幅
    

     
    2. 运行类edu.stanford.nlp.ie.crf.CRFClassifier

    Eclipse Run设置


    训练模型的参数
    -prop chinese_models/edu/stanford/nlp/models/segmenter/chinese/ctb.prop
    -serDictionary chinese_models/edu/stanford/nlp/models/segmenter/chinese/dict-chris6.ser.gz
    -sighanCorporaDict chinese_models/edu/stanford/nlp/models/segmenter/chinese/
    -trainFile segmentor_train.txt
    -serializeTo chinese_models/edu/stanford/nlp/models/segmenter/chinese/newmodel.ser.gz

    参数说明
    prop: ctb.prop, ctb表示Chinese Penn Treebank, 宾州中文词库
    serDictionary: ??
    sighanCorporaDict: ??
    trainFile: 你自己的训练预料文件
    serializeTo: 模型存储位置
    需要大于1g内存: Xmx1g


    3. 生成的模型文件在以下目录
    chinese_models/edu/stanford/nlp/models/segmenter/chinese/newmodel.ser.gz

    4. 运行分词测试用例
    edu.stanford.nlp.lxf.segmentor/SegDemo.java

  • 相关阅读:
    java的instanceof简单使用
    PHP中return,exit,die的区别
    C#调用Dll文件中方法的简单应用
    C#的托管和非托管的简单理解
    对象造型(引用类型转换)
    面向对象3大特性的简单理解
    css3自定义滚动条背景透明
    console.time方法与console.timeEnd方法
    IE8 input X 去掉文本框的叉叉和密码输入框的眼睛图标
    JavaSript模块规范
  • 原文地址:https://www.cnblogs.com/xzpp/p/4722630.html
Copyright © 2011-2022 走看看