- 首先是下载中文维基数据 wget https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2
- 下载提取工具https://github.com/attardi/wikiextractor
- 运行python WikiExtractor.py -b 5000M -o extracted zhwiki-latest-pages-articles.xml.bz2
- 安装繁体转简体工具 sudo apt-get install opencc
- 在extracted子目录下执行繁体转简体 opencc -i wiki_00 -o zhwiki.text -c t2s.json
- 利用jieba分好词
- 下载word2vec工具 https://github.com/dav/word2vec
- 编译word2vec工具,进入到word2vec 目录下 运行命令
make
,再运行命令cd scripts && ./demo-word.sh
- 词向量训练 进入bin 文件夹下面,输入 ./word2vec -train 输入语料 -output 输出文件路径 -cbow 1 -size 200 -window 8 -negative 25 -hs 0 -sample 1e-4 -iter 15,等待片刻即可