zoukankan      html  css  js  c++  java
  • word2vec训练&IC分词(待)

    参考http://www.52nlp.cn/%E4%B8%AD%E8%8B%B1%E6%96%87%E7%BB%B4%E5%9F%BA%E7%99%BE%E7%A7%91%E8%AF%AD%E6%96%99%E4%B8%8A%E7%9A%84word2vec%E5%AE%9E%E9%AA%8C

    1、下周中文wiki资料zhwiki-latest-pages-articles.xml.bz2,1.5G左右

    2、用 process_wiki.py处理XML压缩文件,将其转换为text文件,执行:python process_wiki.py zhwiki-latest-pages-articles.xml.bz2 wiki.zh.text

    在windows上直接运行process_wiki.py可能会报'UnicodeEncodeError: 'gbk' codec can't encode character 'xf6''错误,解决方案:
    在所有的 output = open(outp, 'w', encoding='utf-8') 里加上encoding='utf-8' 。

    原因:网页及python的编码都是utf-8,在写进txt时Windows默认转码成gbk,遇到某些gbk不支持的字符就会报错。在打开文件时就声明编码方式为utf-8就能避免这个错误。

    http://blog.csdn.net/vito21/article/details/53490435

    3、繁体字转化位简体字,利用java的ChineseUtils架包完成 

    https://github.com/luhuiguo/chinese-utils

    4、分词,使用java版的IC分词,产出文件 wiki.zh.jian.splitword.text

    待补充,晚上分词工程

    5、word2vec训练: python train_word2vec_model.py wiki.zh.jian.splitword.text wiki.zh.text.model wiki.zh.text.vector

  • 相关阅读:
    对象继承习题
    Java访问修饰符(转)
    对Java JVM中类加载几点解释
    1006 最长公共子序列Lcs
    算法训练 成绩的等级输出
    算法训练 统计字符次数
    算法训练 连接字符串
    算法训练 筛选号码
    算法训练 十进制数转八进制数
    算法训练 斜率计算
  • 原文地址:https://www.cnblogs.com/ying-chease/p/8630452.html
Copyright © 2011-2022 走看看