zoukankan      html  css  js  c++  java
  • 安装自然语言处理工具Nltk以及初次使用

    步骤一:卸载已经安装的python
    步骤二:安装python科学计算工具,里面自动安装了很多库,像numpy,matplotlib,nltk等等,并且会自动安装python,安装完成后,不需要配置环境。下载地址https://www.continuum.io/downloads
    我安装的版本是https://repo.continuum.io/archive/Anaconda2-4.2.0-Windows-x86.exe
    步骤三:安装pymysql,因为这个工具不包含连接mysql的库。http://www.cnblogs.com/lovely7/p/5828419.html 见之前写的安装。

    数据库使用示范:
    import pymysql
    conn= pymysql.connect( host='localhost', port = 3306, user='root', passwd='', db ='ad', ) #conn = MySQLdb.connect(user='root', password='', use_unicode=True) cursor = conn.cursor() sql = "SELECT title,abstract,pmb_id,time,url FROM `article` " a = cursor.execute(sql) print a b = cursor.fetchmany(a) #b has 7887 abstract list titleandabstractList = [] pmbIDdict= {} yearlist = [] url_dict = {} for j in range(a): titleandabstractList.append(b[j][0]+b[j][1]) pmbIDdict[j] = b[j][2] yearlist.append(b[j][3].year) url_dict[j] = b[j][4]

    分词使用示范:使用MWETokenizer可以对词组做分词处理。

    from nltk.tokenize import MWETokenizer
    
    tokenizer = MWETokenizer([('a', 'little'), ('a', 'little', 'bit'), ('a', 'lot')])
    tokenizer.add_mwe(('in', 'spite', 'of'))

      print tokenizer.tokenize('a little Testing testing a lot one two in spite of'.split())

     






    未成功的方法
    Install Python: http://www.python.org/download/releases/2.7.3/
    安装Numpy (optional): http://www.lfd.uci.edu/~gohlke/pythonlibs/#numpy
    安装Setuptools: http://pypi.python.org/packages/2.7/s/setuptools/setuptools-0.6c11.win32-py2.7.exe
    安装 Pip: Start>Run... c:Python27Scriptseasy_install pip
    安装PyYAML and NLTK: Start>Run... c:Python27Scriptspip install pyyaml nltk

    我的电脑之前装过numpy,setuptools,和pip,只需要在python2.7的scripts目录下运行
    pip install pyyaml nltk即可。

    http://blog.sina.com.cn/s/blog_8af1069601019xmo.html

    http://blog.csdn.net/joey_su/article/details/17287559

    http://blog.csdn.net/alihonglong/article/details/52668801
    http://www.ibm.com/developerworks/cn/opensource/os-pythonnltk/index.html

    一 :以上都是理论可行的方法,但是最近实验室网不行,下载总是timeout。最后使用手机4g连接https://pypi.python.org/simple/nltk/
    下载了nltk-3.0.5.win32.exe 终于成功下载安装。
    import nltk没有问题
    二:https://pypi.python.org/simple/pyyaml/下载安装了 PyYAML-3.10.win32-py2.7.exe

    三:下载nltk数据源 。nltk_data是必要的nltk数据包,实现分词,词性标注,命名实体识别等功能都要用到这个数据包

    import nltk
    nltk.download()

    出现

    但是下载速度会比较慢

    或者到http://www.nltk.org/nltk_data/ 手动下载

    但是实验室的网速下了一夜也没下载成功,参考

    http://blog.csdn.net/cxq2046/article/details/50972715

    下载会很慢或干脆卡住。此时需要手动下载nltk_data包。

     下载方法:到https://github.com/nltk/nltk_data下载gh-pages分支,里面的Packages就是我们要的资源里面有部分是压缩包,需要解压

    将Packages文件夹改名为nltk_data,放在以下任一路径:

    分词 http://wenku.baidu.com/link?url=xJtphneI5792wB7hsIRjB6L8TTT-bCjCEjCzs8Jm_NfzsHRPImge68J3SaiBzrYT5BvFFLn_Vd8J9Z0j5EQyhVgOAKqUazdZE-uSfzhhZL3




     
  • 相关阅读:
    图论概况
    [NOI2006]最大获利
    Dining
    [USACO5.3]校园网Network of Schools 缩点
    I Hate It
    [USACO06JAN]牛的舞会The Cow Prom Tarjan
    爱在心中
    [HAOI2006]受欢迎的牛
    泥泞的道路
    上白泽慧音
  • 原文地址:https://www.cnblogs.com/lovely7/p/6110878.html
Copyright © 2011-2022 走看看