zoukankan      html  css  js  c++  java
  • 训练分词模型

    1. 训练的文件
    segmentor_train.txt

    文件内容,用空格分隔词

    中国 进出口 银行 与 中国 银行 加强 合作
    新华社 北京 十二月 二十六日 电 ( 记者 周根良 )
    
    今日 三 大 股指 均 小幅 低开,随后 沪深指数 在 权重板块 集体 拉升 的 带动 下 小幅 上涨,但 创业板 却 出现 持续性 的 下跌。
    午后 权重 跳水 导致 沪深指数 也 出现 一波杀跌,创业板 表现 却 迥异,盘中 没有 一波 拉升,今日 一度 大跌 3%。
    
    从 盘面 上 看,今日 权重 板块 依然 独领风骚,银行,券商,地产 大幅 上涨,但 保险板块 今日 表现 不佳,保险股 涨幅 平淡。
    今日 国信证券(002736),西部证券(002673)双双涨停,海通证券(600837),国元证券(000728),中信证券(600030)也有 不俗 表现。银行股 方面,仅有 一直 中信银行 (601998) 涨停。
    
    上证指数   涨跌幅
    

     
    2. 运行类edu.stanford.nlp.ie.crf.CRFClassifier

    Eclipse Run设置


    训练模型的参数
    -prop chinese_models/edu/stanford/nlp/models/segmenter/chinese/ctb.prop
    -serDictionary chinese_models/edu/stanford/nlp/models/segmenter/chinese/dict-chris6.ser.gz
    -sighanCorporaDict chinese_models/edu/stanford/nlp/models/segmenter/chinese/
    -trainFile segmentor_train.txt
    -serializeTo chinese_models/edu/stanford/nlp/models/segmenter/chinese/newmodel.ser.gz

    参数说明
    prop: ctb.prop, ctb表示Chinese Penn Treebank, 宾州中文词库
    serDictionary: ??
    sighanCorporaDict: ??
    trainFile: 你自己的训练预料文件
    serializeTo: 模型存储位置
    需要大于1g内存: Xmx1g


    3. 生成的模型文件在以下目录
    chinese_models/edu/stanford/nlp/models/segmenter/chinese/newmodel.ser.gz

    4. 运行分词测试用例
    edu.stanford.nlp.lxf.segmentor/SegDemo.java

  • 相关阅读:
    X11学习
    Linux 实用命令
    Notepad++ 添加右键菜单
    VS Code编译C/C++
    map与unordered_map的区别
    Rtt / vxworks 任务状态装换对比
    awesome computer vision repo
    英语每日金句
    不要在意七十亿分之一对另七十亿分之一的看法
    致知在格物,物格而后知至,知至而后意诚,意诚而后心正,心正而后身修,身修而后家齐,家齐而后
  • 原文地址:https://www.cnblogs.com/xzpp/p/4722630.html
Copyright © 2011-2022 走看看