zoukankan      html  css  js  c++  java
  • word2vect实战

    需要代码的可以联系我,python建议用anaconda,非常强大

    安装gensim

    pip install gensim  
    

    中文语料数据

    英文语料数据

    步骤

    将xml的文件转换成txt文件

    python process_wiki.py zhwiki-latest-pages-articles.xml.bz2 wiki.cn.text
    

    得到wiki.cn.text

    繁体转成简体

    opencc windows

    1.进入opencc文件中

    2.把简繁转换的源文件(例如是深蓝词库转换出来的无拼音纯简体字文档)放在D:opencc目录下,假设是sc.txt

    2.打开命令提示符,进入D:opencc目录

    3.键入opencc -i wiki.cn.text -o wiki.cn.text.jian -c t2s.json(也可键入“opencc –help”参阅详细命令说明)

    4.转换后的文档就是 wiki.cn.text.jian,同样在D:opencc目录下

    结巴分词

    python separate_words.py wiki.cn.text.jian wiki.cn.text.jian.seq 

    得到wiki.cn.text.jian.seq

    去除多余的其他字符

    python remove_words.py wiki.cn.text.jian.seq wiki.cn.text.jian.removed

    得到wiki.cn.text.jian.removed

    训练模型

    python train_word2vec_model.py wiki.cn.text.jian.removed wiki.en.text.jian.model wiki.en.text.jian.vector

    其中wiki.en.text.jian.model是我们训练出来的模型

    模型测试

    python test_model.py

    中文语料训练结果

    英文语料训练结果

  • 相关阅读:
    jmeter-plugins-manager安装
    JMeter安装
    charles
    url地址有哪些组成?
    服务器的响应状态码
    jQuery链式编程
    jQuery 实现单选反选以及三元运算
    jQuery选择器的基本和层级
    将jmeter返回的json数据转码
    DOM的事件
  • 原文地址:https://www.cnblogs.com/ainima/p/6331782.html
Copyright © 2011-2022 走看看