zoukankan      html  css  js  c++  java
  • 基于CRF工具的机器学习方法命名实体识别的过

    [转自百度文库]

    基于CRF工具的机器学习方法命名实体识别的过程

    • |
    • 浏览:226
    • |
    • 更新:2014-04-11 09:32

    这里只讲基本过程,不涉及具体实现,我也是初学者,想给其他初学者一些帮助,如有不对,请多包涵

    方法/步骤

    1.  

      语料的收集整理。部分专业有完整的语料库(包括训练语料和测试语料,这些语料不需要再进行人工标注)。如果没有,个人就要根据专业需求上网上用工具抓取,下载,预处理(对中文语料需要进行分词处理和词性标注预处理),同时要对训练预料进行人工标注,很浪费时间。个人建议初学者直接在能找到的专业语料库上做实验。

    2.  

      根据专业需求选取要抽取的特征,制定特征模板。这个过程参考专业领域的论文,一般好的特征别人都提到过。选取特征之后这里要跑程序,将语料格式根据选取的特征转化为CRF模型所要求的语料格式(这个程序一般要自己写,因为特征不一样)。

    3.  

      语料格式整理好之后,用CRF进行训练。配置crf就不说了,训练和测试是在DOS环境下进行的。使用crf工具进行训练:命令:crf_learn template train model   (template是训练模板 train 训练语料model训练模型)

      使用crf工具进行测试:命令:crf_test  model test > test.a(model是训练模型test 是测试语料test.a是测试结果)这里只是一个例子说明过程,具体使用方法百度CRF的具体用法。

    4. 4

      这个测试结果不能直接进行评价,要先测试结果转化为可以评价的格式(这里也是需要跑程序)。转化后评测。目前我知道的是在UNIX系统下评测,有UNIX服务器的最好,用 FlashFXP软件登陆服务器,用putty软件进行评测。putty评测命令:perl alt_eval.perl test.e > test-1(test.e是可以被评测的经过CRF模型测试过的测试语料格式,是经过my Eclipse转化而来。test-1是存放评测结果的文件,如果不定义,结果直接显示在控制台)。

       
  • 相关阅读:
    C# 串口操作系列(4) -- 协议篇,文本协议数据解析(转)
    c#中,确保数据接收完整的 串口处理程序
    特别好的系列GMap.net技术总结文章12篇
    lock()
    获取程序启动路径去掉后面的i个字符
    wpf简单界面
    使用.NET进行高效率互联网敏捷开发的思考和探索【一、概述】
    $.getJSON 返回值、AJAX异步调用步骤
    JQuery validate 在IE兼容模式下出现 js错误(成员找不到)的修正:
    jQuery getJSON() 能给外部变量赋值
  • 原文地址:https://www.cnblogs.com/hellofengying/p/4015487.html
Copyright © 2011-2022 走看看