zoukankan      html  css  js  c++  java
  • NLPP-00-Preparation

    NLPP is short for Natural Language Processing with Python

    《Python 自然语言处理(Natural Language Processing with Python)》, Steven Bird etc.[著],陈涛等译,人民邮电出版社,2014

    学习这本书必须安装NLTK及相应的语料库。

    1.安装NLTK

    1.1 ubuntu 14.04LTS

    安装python packages,python社区推荐用pip。用pip安装不好用,放弃此法。

    采用ubuntu的apt-get安装各个软件包,好用。安装nltk,先需要安装numpy, matplotlib,然后安装nltk,在安装nltk过程中,会额外安装yaml。猜测基本的nltk实验、开发环境必需numpy, matplotlib, nltk, yaml四个软件包。

    1 sudo apt-get install python-numpy
    2 sudo apt-get install python-matplotlib
    3 sudo apt-get install python-nltk

    1.2 Fedora release 20 (Heisenbug)

    依然必需numpy, matplotlib, nltk, yaml四个软件包,采用yum方式安装。包名略有差别,如yaml,在ubuntu中叫python-yaml;在fedora中名为PyYAML

    1 sudo yum install numpy
    2 sudo yum install python-matplotlib
    3 sudo yum insall python-nltk

    1.3 测试

     安装完毕在命令行状态下,输入

    1 python

    进入python解释器。

    在python 状态下输入

    1 import nltk

    无误,即成功安装NLTK。

    2. 安装语料库

    在输入命令import nltk后,继续在python解释器输入

    1 nltk.download()

    2.1 ubuntu 14.04LTS

    显示一个下载窗口,如书中图1-1所示,但没有内容,无法下载语料库。注意这个窗口下方"Download Directory"里面的目录。这个目录就是语料库应保存的位置。

    糯米糊糊的专栏,博主提供了语料库云盘下载。

    下载后,放到"Download Directory"所示目录即可。

    2.2 Fedora 20 (Heisenbug)

    输入nltk.download(),显示窗口,而且窗口中是有内容的。似应可以下载。

    并未进一步试验,只是需要将前述下载的语料库放到相应目录中。

    注意,它的目录与Ubuntu不同,要求放在这几个目录下。

        - '/root/nltk_data'
        - '/usr/share/nltk_data'
        - '/usr/local/share/nltk_data'
        - '/usr/lib/nltk_data'
        - '/usr/local/lib/nltk_data'
    放在/usr/share/nltk_data中,权限修改为755。

    即可用nltk做试验,可运行书中例子,进行学习了。

    2.3 测试

    在python解释器中输入

    1 from nltk.book import *

    无误,能引入相应语料,即可。

    3. 小结

    nltk学习、实验环境搭建完毕。

  • 相关阅读:
    flask 日志级别设置只记录error级别及以上的问题
    UnicodeDecodeError: ‘utf-8’ codec can’t decode byte...
    Python 爬虫使用固定代理IP
    python中json报错:json.decoder.JSONDecodeError: Invalid control character at: line 2 column 18 (char 19)
    scrapy中命令介绍
    Python atexit模块
    MP和OMP算法
    如何理解希尔伯特空间
    压缩感知学习博客推荐
    压缩感知系列文章点评
  • 原文地址:https://www.cnblogs.com/cfsmile/p/4363315.html
Copyright © 2011-2022 走看看