自然语言处理--nltk安装及wordnet使用详解

zoukankan html css js c++ java

自然语言处理--nltk安装及wordnet使用详解
环境：python2.7.10

首先安装pip

在https://pip.pypa.io/en/stable/installing/ 下载get-pip.py

然后执行 python get-pip.py 将自动安装pip

nltk是python的一个扩展包，提供自然语言处理工具集

安装nltk

sudo pip install -U nltk

import nltk

然后下载语料库

nltk.download()

弹出窗口如下，按需下载，我选择的是book

、

下载完成查看目录：

其中corpora为语料库，也可以下载自己需要的语料库：http://www.nltk.org/nltk_data/

corpora中有好多文章和字典，如古腾堡，路透社等文章，wordnet是面向语义的词典，names里包含了好多名字，stopwords包含了可忽略的语法上的高频词汇，words包含平时常用的单词可用来做拼写检查，

还有city_database，webtext，unicode_samples等语料。

使用时需要import，如：

from nltk.corpus import gutenberg

from nltk.corpus import stopwords

wordnet语料库：

wordnet是普林斯顿大学创建的语义词典，特点是其中包含了大量的单词间的联系，可以看作是一个巨大的词汇网络。

词与词之间的关系可以为同义，反义，上下位（水果－苹果），整体部分（汽车－轮胎）。建立关系是大脑学习的首要过程，知识的脉络必定可达，孤立点会被遗忘。

引入wordnet

from nltk.corpus import wordnet as wn

wordnet API：http://www.nltk.org/howto/wordnet.html

synsets()用来查询一个单词，返回结果是Synset数组，一个Synset由单词－词性－序号组成：
查看全文

相关阅读:
UCloud-201809-001:Redis服务未授权访问漏洞安全预警
 php框架tp3.2.3和js写的微信分享功能心得，分享的标题内容图片自定义
 一键分享到QQ空间、QQ好友、新浪微博、微信代码
 ArcGIS10.x Engine直连提示连接超时ORA-12170 来自：http://www.iarcgis.com/?p=1004
ArcGIS Engine三维动画开发来自：http://www.iarcgis.com/?p=826
ArcGIS Engine断开其他ArcSDE用户连接的解决方案
 ARCGIS 10.0破解版安装过程error 1606 和error 1316问题及安装流程
 教你如何查看CAD文件是哪个版本的来自http://blog.sina.com.cn/s/blog_4c9fa4dd0101il1v.html
C# DataGridView,右键单击RowHeader时显示右键菜单怎么做？
C#控制定位Word光标移动到任意行或者最后一行，取得光标位置等操作

原文地址：https://www.cnblogs.com/luangeng/p/5824076.html