用word2vec对语料进行训练 - 走看看

zoukankan html css js c++ java

用word2vec对语料进行训练

在Linux上安装好word2vec，进入trunk文件夹，把分词后的语料文件放在trunk文件夹内，执行：./word2vec -train tt.txt -output vectors.bin -cbow 1 -size 80 -window 5 -negative 80 -hs 0 -sample 1e-4 -threads 20 -binary 1 -iter 15

其中tt.txt是刚才分词后的输出文件，vectors.bin是训练后输出的文件，-cbow 0表示不使用cbow模型，默认为Skip-Gram模型。-size 80 每个单词的向量维度是80，-window 5 训练的窗口大小为5就是考虑一个词前五个和后五个词语（实际代码中还有一个随机选窗口的过程，窗口大小小于等于5）。-negative 0 -hs 1不使用NEG方法，使用HS方法。-sampe指的是采样的阈值，如果一个词语在训练样本中出现的频率越大，那么就越会被采样。-binary为1指的是结果二进制存储，为0是普通存储（普通存储的时候是可以打开看到词语和对应的向量的）。

训练完成后，执行命令：

./distance vectors.bin

训练结果也可以为二进制存储，也可以是普通存储。执行：./word2vec -train tt.txt -output out.txt -cbow 0 -size 200 -window 5 -negative 0 -hs 1 -sample 1e-3 -threads 12 -classes 500

输出文件为out.txt，我们得到一个纯文本的文件，

查看全文

相关阅读:
K
CFileDialog的用法
 MFC编辑框换行实现
 MFC通过对话框窗口句柄获得对话框对象指针
 AfxGetMainWnd()函数用法
 this指针和m_hWnd的区别
 WinAPI: FindWindow、FindWindowEx
深入浅出Hibernate（二）多对一关系映射
 JAVA 并发编程-读写锁之模拟缓存系统（十一）
很easy的js双向绑定框架（二）：控制器继承

原文地址：https://www.cnblogs.com/zhangtianyuan/p/6909129.html

Copyright © 2011-2022 走看看