需要代码的可以联系我,python建议用anaconda,非常强大
安装gensim
pip install gensim
步骤
将xml的文件转换成txt文件
python process_wiki.py zhwiki-latest-pages-articles.xml.bz2 wiki.cn.text
得到wiki.cn.text
繁体转成简体
opencc windows
1.进入opencc文件中
2.把简繁转换的源文件(例如是深蓝词库转换出来的无拼音纯简体字文档)放在D:opencc目录下,假设是sc.txt
2.打开命令提示符,进入D:opencc目录
3.键入opencc -i wiki.cn.text -o wiki.cn.text.jian -c t2s.json
(也可键入“opencc –help”参阅详细命令说明)
4.转换后的文档就是 wiki.cn.text.jian,同样在D:opencc目录下
结巴分词
python separate_words.py wiki.cn.text.jian wiki.cn.text.jian.seq
得到wiki.cn.text.jian.seq
去除多余的其他字符
python remove_words.py wiki.cn.text.jian.seq wiki.cn.text.jian.removed
得到wiki.cn.text.jian.removed
训练模型
python train_word2vec_model.py wiki.cn.text.jian.removed wiki.en.text.jian.model wiki.en.text.jian.vector
其中wiki.en.text.jian.model是我们训练出来的模型
模型测试
python test_model.py