zoukankan      html  css  js  c++  java
  • 深度学习+CRF解决NER问题

    参考https://github.com/shiyybua/NER

    1、开发环境:python3.5+tensorflow1.5+pycharm

    2、从https://github.com/shiyybua/NER load工程NER,由于下载的原始代码是基于python2.7的,首先利用2to3.py工具将rnn.py、utils.py转换为python3.x代码。

    3、将工程导入pycharm中,此时直接运行会报'Parent module '' not loaded, cannot perform relative import'错误,此时可以建一个package,将代码文件拷贝到package,并修改import部分,如下:

    from package.utils import *

    解决问题。

    4、准备训练文件

    4.1准备词向量文件:利用word2vec训练产生词向量,词向量训练的源文件可直接使用load工程中的source.txt,实验中生成的词向量文件source.vec,格式如下:

     

    可以看到生成的词向量有400维,将source.vec第一行去掉,并修改配置文件config.py的词向量默认维数为400。注意词向量的路径使用原始路径有问题,可以改为D盘根目录:

    tf.app.flags.DEFINE_string("word_embedding_file", 'd:/source.vec', "extra word embeddings.")

    4.2、准备source_vocab.txt

    将源文件source.txt数据处理成一个词一行的格式,注意文件中不能有空格/空行:

     

     4.3、训练

    特别注意:每次训练时,当model文件已有训练好的模型,系统会自动加载已有模型,如果是新语料这时会出错,需要要删除旧的model文件夹的文件避免加载已有模型。

  • 相关阅读:
    Go标准库Context
    事务并发处理: DB+ORM+逻辑代码
    日志:slf4j+log4j+maven配置
    Shiro workshop
    JSP Workshop
    sql records
    Java内存模型(JMM)
    Application, JDBC, 数据库连接池, Session, 数据库的关系
    Java位操作全面总结
    Effective Java总结
  • 原文地址:https://www.cnblogs.com/ying-chease/p/8630691.html
Copyright © 2011-2022 走看看