word2vect实战 - 走看看

zoukankan html css js c++ java

word2vect实战
需要代码的可以联系我,python建议用anaconda，非常强大

安装gensim

pip install gensim

中文语料数据

英文语料数据

步骤

将xml的文件转换成txt文件

python process_wiki.py zhwiki-latest-pages-articles.xml.bz2 wiki.cn.text

得到wiki.cn.text

繁体转成简体

opencc windows

1.进入opencc文件中

2.把简繁转换的源文件（例如是深蓝词库转换出来的无拼音纯简体字文档）放在D:opencc目录下，假设是sc.txt

2.打开命令提示符，进入D:opencc目录

3.键入opencc -i wiki.cn.text -o wiki.cn.text.jian -c t2s.json（也可键入“opencc –help”参阅详细命令说明）

4.转换后的文档就是 wiki.cn.text.jian，同样在D:opencc目录下

结巴分词

python separate_words.py wiki.cn.text.jian wiki.cn.text.jian.seq

得到wiki.cn.text.jian.seq

去除多余的其他字符

python remove_words.py wiki.cn.text.jian.seq wiki.cn.text.jian.removed

得到wiki.cn.text.jian.removed

训练模型

python train_word2vec_model.py wiki.cn.text.jian.removed wiki.en.text.jian.model wiki.en.text.jian.vector

其中wiki.en.text.jian.model是我们训练出来的模型

模型测试

python test_model.py

中文语料训练结果

英文语料训练结果
查看全文

相关阅读:
bzoj1588
bzoj1607
bzoj2427
Java-链表LinkedList源码原理分析，并且通过LinkedList构建队列
 Java --HashMap源码解析
 Java--volatile关键字的作用与用法
 Java--正则表达式-简单的在字符串中找数字
 Java--通过Spring AOP进行事务管理
 Java--String 和StringBuilder、StringBuffer 的区别?
Java多线程--wait(),notify(),notifyAll()的用法

原文地址：https://www.cnblogs.com/ainima/p/6331782.html

热门文章
bzoj2809
bzoj1093
bzoj2301
bzoj2733
人生中第一场比赛BC#56div2
bzoj1455
bzoj1007
bzoj100题纪念。。。
bzoj1269&&1507
bzoj2120

Copyright © 2011-2022 走看看