zoukankan      html  css  js  c++  java
  • 利用python实现词向量训练----

    python的一堆工具包

    https://www.lfd.uci.edu/~gohlke/pythonlibs/

    ------------------------------------------------------------------------

    貌似遇见了自然语言处理的行家

    我们参考以下的链接

    https://www.jianshu.com/u/c5df9e229a67

    https://www.jianshu.com/p/05800a28c5e4

    ----------------------------------------------------------------------------

    1.需要下载维基百科的中文语料 1.2个G 下载很慢  下载链接如下   https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2

    2.下载完 需要用process_wiki.py脚本来解析xml文件

    3.将这两个文件(下载的语料和process_wiki.py)放在同一个目录下,

    执行:python process_wiki.py zhwiki-latest-pages-articles.xml.bz2 wiki.zh.text:执行结果类似(当时没有截图,借用下):

    4.解析完毕后需要(1)繁简转化(2)统一为UTF-8编码(3)分词

    5.然后开始训练需要文件:train_word2vec_model.py

    执行:python train_word2vec_model.py wiki.zh.text wiki.zh.text.model wiki.zh.text.vector

    ----------------------------------------------维基语料下载太慢  直接利用https://blog.csdn.net/thriving_fcl/article/details/51406780 下载了链接中的原始语料 和训练语料

    语料

     原始语料 http://pan.baidu.com/s/1nviuFc1

    训练语料 http://pan.baidu.com/s/1kVEmNTd

    首先:

    我们需要安装一些依赖库,有numpy、scipy以及gensim,安装gensim依赖于scipy,安装scipy依赖于numpy。

    1.安装pip ,如果安装的是python3.4版本以上的,就不需要重新安装。自带有pip

    2.安装numpy 参见程序:https://blog.csdn.net/Katrina_ALi/article/details/64922107

    wheel已经安装完毕   https://www.cnblogs.com/cysblog/p/7675713.html

    安装numpy的时候一直说版本不对应,出现以下错误

    查询资料后才知道下载页面numpy的参数表示:

    cp3.6是python3.6版本,win_amd64是window系统64位。需要注意numpy是要下载有mkl的版本的,因为scipy安装需要在numpy+mkl才能成功。 安装。首先因为scipy安装需要在numpy+mkl才能成功。所以需要先安装numpy+mkl

    a. 前面的表示numpy的版本号,一般选择最新版本就好
    b. 中间的cp35,表示的就是Python 3.5.*
    c. 最后选择和自己电脑位数匹配的版本
    3. 将下载后的numpy安装包放到任意文件夹
    4. 打开控制台,进入到保存numpy安装包的文件夹
    5. 输入安装指令

     经测试,终于安装成功。

    安装numpy之后安装scipy,仍然使用命令pip install scipy安装完scipy以后,接下来使用命令 pip install gensim 即可。

    带所有的环境安装成功以后。开始下载语料太慢,我直接用了上面说的训练语料 别人已经处理好的 开始训练词向量

    训练文件执行到上图所示的部分,是否训练成功????

    执行到此 表示训练成功。

    -----------------------待分析

    简书上也有详细步骤https://www.jianshu.com/p/05800a28c5e4

    https://blog.csdn.net/grafx/article/details/78575850

    https://blog.csdn.net/thriving_fcl/article/details/51406780

    https://www.jianshu.com/p/98d84854f7a3

    https://www.cnblogs.com/helloever/p/5280891.html

    https://www.jianshu.com/p/05800a28c5e4

  • 相关阅读:
    正则表达式  语法
    正则表达式  语法
    SQL Server 删除日志文件
    SQL Server 删除日志文件
    C# CLR简介
    C# CLR简介
    理解 C# 项目 csproj 文件格式的本质和编译流程
    理解 C# 项目 csproj 文件格式的本质和编译流程
    De4Dot+Reflector 支持多种反混淆
    De4Dot+Reflector 支持多种反混淆
  • 原文地址:https://www.cnblogs.com/maowuyu-xb/p/9481243.html
Copyright © 2011-2022 走看看