NLPP is short for Natural Language Processing with Python
《Python 自然语言处理(Natural Language Processing with Python)》, Steven Bird etc.[著],陈涛等译,人民邮电出版社,2014
学习这本书必须安装NLTK及相应的语料库。
1.安装NLTK
1.1 ubuntu 14.04LTS
安装python packages,python社区推荐用pip。用pip安装不好用,放弃此法。
采用ubuntu的apt-get安装各个软件包,好用。安装nltk,先需要安装numpy, matplotlib,然后安装nltk,在安装nltk过程中,会额外安装yaml。猜测基本的nltk实验、开发环境必需numpy, matplotlib, nltk, yaml四个软件包。
1 sudo apt-get install python-numpy 2 sudo apt-get install python-matplotlib 3 sudo apt-get install python-nltk
1.2 Fedora release 20 (Heisenbug)
依然必需numpy, matplotlib, nltk, yaml四个软件包,采用yum方式安装。包名略有差别,如yaml,在ubuntu中叫python-yaml;在fedora中名为PyYAML
1 sudo yum install numpy 2 sudo yum install python-matplotlib 3 sudo yum insall python-nltk
1.3 测试
安装完毕在命令行状态下,输入
1 python
进入python解释器。
在python 状态下输入
1 import nltk
无误,即成功安装NLTK。
2. 安装语料库
在输入命令import nltk后,继续在python解释器输入
1 nltk.download()
2.1 ubuntu 14.04LTS
显示一个下载窗口,如书中图1-1所示,但没有内容,无法下载语料库。注意这个窗口下方"Download Directory"里面的目录。这个目录就是语料库应保存的位置。
到糯米糊糊的专栏,博主提供了语料库云盘下载。
下载后,放到"Download Directory"所示目录即可。
2.2 Fedora 20 (Heisenbug)
输入nltk.download(),显示窗口,而且窗口中是有内容的。似应可以下载。
并未进一步试验,只是需要将前述下载的语料库放到相应目录中。
注意,它的目录与Ubuntu不同,要求放在这几个目录下。
- '/root/nltk_data'
- '/usr/share/nltk_data'
- '/usr/local/share/nltk_data'
- '/usr/lib/nltk_data'
- '/usr/local/lib/nltk_data'
放在/usr/share/nltk_data中,权限修改为755。
即可用nltk做试验,可运行书中例子,进行学习了。
2.3 测试
在python解释器中输入
1 from nltk.book import *
无误,能引入相应语料,即可。
3. 小结
nltk学习、实验环境搭建完毕。