zoukankan      html  css  js  c++  java
  • 用word2vec对语料进行训练

          在Linux上安装好word2vec, 进入trunk文件夹,把分词后的语料文件放在trunk文件夹内,执行:./word2vec -train tt.txt -output vectors.bin -cbow 1 -size 80 -window 5 -negative 80 -hs 0 -sample 1e-4 -threads 20 -binary 1 -iter 15

          其中tt.txt是刚才分词后的输出文件,vectors.bin是训练后输出的文件,-cbow 0表示不使用cbow模型,默认为Skip-Gram模型。-size 80 每个单词的向量维度是80,-window 5 训练的窗口大小为5就是考虑一个词前五个和后五个词语(实际代码中还有一个随机选窗口的过程,窗口大小小于等于5)。-negative 0 -hs 1不使用NEG方法,使用HS方法。-sampe指的是采样的阈值,如果一个词语在训练样本中出现的频率越大,那么就越会被采样。-binary为1指的是结果二进制存储,为0是普通存储(普通存储的时候是可以打开看到词语和对应的向量的)。

          训练完成后,执行命令:

          ./distance vectors.bin

          训练结果也可以为二进制存储,也可以是普通存储。执行:./word2vec -train tt.txt -output out.txt -cbow 0 -size 200 -window 5 -negative 0 -hs 1 -sample 1e-3 -threads 12 -classes 500

          输出文件为out.txt,我们得到一个纯文本的文件,

  • 相关阅读:
    魔兽世界中的一些公式
    T端大灾变版本传送大师(NPC 脚本)
    T端带数据库查询的假人系统
    T端GM上线提示
    T端mysql优化设置
    T端根据玩家职业来显示不同颜色的角色名字的C++代码
    IOS复习-UIButton
    从明天开始认真写博客
    为什么到今天还要坚持写博客
    cocos2d—1—环境安装
  • 原文地址:https://www.cnblogs.com/zhangtianyuan/p/6909129.html
Copyright © 2011-2022 走看看