zoukankan      html  css  js  c++  java
  • 训练分词模型

    1. 训练的文件
    segmentor_train.txt

    文件内容,用空格分隔词

    中国 进出口 银行 与 中国 银行 加强 合作
    新华社 北京 十二月 二十六日 电 ( 记者 周根良 )
    
    今日 三 大 股指 均 小幅 低开,随后 沪深指数 在 权重板块 集体 拉升 的 带动 下 小幅 上涨,但 创业板 却 出现 持续性 的 下跌。
    午后 权重 跳水 导致 沪深指数 也 出现 一波杀跌,创业板 表现 却 迥异,盘中 没有 一波 拉升,今日 一度 大跌 3%。
    
    从 盘面 上 看,今日 权重 板块 依然 独领风骚,银行,券商,地产 大幅 上涨,但 保险板块 今日 表现 不佳,保险股 涨幅 平淡。
    今日 国信证券(002736),西部证券(002673)双双涨停,海通证券(600837),国元证券(000728),中信证券(600030)也有 不俗 表现。银行股 方面,仅有 一直 中信银行 (601998) 涨停。
    
    上证指数   涨跌幅
    

     
    2. 运行类edu.stanford.nlp.ie.crf.CRFClassifier

    Eclipse Run设置


    训练模型的参数
    -prop chinese_models/edu/stanford/nlp/models/segmenter/chinese/ctb.prop
    -serDictionary chinese_models/edu/stanford/nlp/models/segmenter/chinese/dict-chris6.ser.gz
    -sighanCorporaDict chinese_models/edu/stanford/nlp/models/segmenter/chinese/
    -trainFile segmentor_train.txt
    -serializeTo chinese_models/edu/stanford/nlp/models/segmenter/chinese/newmodel.ser.gz

    参数说明
    prop: ctb.prop, ctb表示Chinese Penn Treebank, 宾州中文词库
    serDictionary: ??
    sighanCorporaDict: ??
    trainFile: 你自己的训练预料文件
    serializeTo: 模型存储位置
    需要大于1g内存: Xmx1g


    3. 生成的模型文件在以下目录
    chinese_models/edu/stanford/nlp/models/segmenter/chinese/newmodel.ser.gz

    4. 运行分词测试用例
    edu.stanford.nlp.lxf.segmentor/SegDemo.java

  • 相关阅读:
    Cocos2d-x 3.2编译生成Android程序出错Error running command, return code: 2的解决方法
    利用Theme自定义Activity进入退出动画
    Activity的四种launchMode
    android中设置控件获得焦点
    android 反编译 for mac
    android中libs目录下armeabi和armeabi-v7a的区别
    解决Sublime Text 3中文显示乱码(tab中文方块)问题,sublime tab乱码
    mysql教程
    Failed to load c++ bson extension, using pure JS version
    mongodb导出数据
  • 原文地址:https://www.cnblogs.com/xzpp/p/4722630.html
Copyright © 2011-2022 走看看