gensim ——训练word2vec词向量的使用方法。

# -*- coding: utf-8 -*-

import os
import time
import sys

reload(sys)
sys.setdefaultencoding('utf-8')

from gensim.models import word2vec


def main():
    # 原始语料路径,已分词
    input_file = ur"sogou_seg.txt"
    sentences = word2vec.Text8Corpus(input_file)
　　#训练代码
    model = word2vec.Word2Vec(sentences, sg=1, size=100, window=5, min_count=1, negative=3, sample=0.001, hs=1,
                              workers=40)
    #save
    model.save("./sogou_word2vec/min_count-1/sogou_word.model")
    model.wv.save_word2vec_format("./sogou_word2vec/min_count-1/sogou.wor2vec.txt")


if __name__ == "__main__":
    main()
    print "Done!"

load 的时候只需要

model = word2vec.Word2Vec.load("./sogou_word2vec/min_count-1/sogou_word.model")

或者

model=gensim.models.KeyedVectors.load_word2vec_format("./sogou_word2vec/min_count-1/sogou.wor2vec.txt")

查看全文

相关阅读:
WSS3.0安装后，系统资源消耗这么大
 通过名称找到控件（VB.NET）
zencart 对首页静态化处理
 zen cart 模板类 template_fun class
现在网络上流行的病毒都太“厚道”了
 从SPS2003的邮件设置上看微软标准与国际标准
 我也有了BLOG，欢迎交流
 如何给WEBPART中增加客户端代码
 如何修改More Information 中的Page 2,Page 3,Page4
汽车保养项目[转载]

原文地址：https://www.cnblogs.com/hit-joseph/p/9235162.html