zoukankan html css js c++ java

【语言处理与Python】3.1从网络和硬盘访问文本

本章开始导入语句

from __future__ import division

import nltk,re,pprint

3.1从网络和硬盘访问文本

电子书

from urllib import urlopen

url=”http://www.gutenberg.org/files/2554/2554.txt”

raw=urlopen(url).read()

#如果使用了Internet代理，需要手工指定代理

proxies={‘http’:’http://www.someproxy.com:3128’}

raw=urlopen(url,proxies=proxies).read()

#对得到的文本分词操作

tokens=nltk.word_tokenize(raw)

处理的HTML

url=”http://news.bbc.co.uk/2/hi/health/2284783.stm”

html=urlopen(url).read()

#清楚不必要的标签和内容

raw=nltk.clean_html(html)

#分词

tokens=nltk.word_tokenize(raw)

#转换类型

text.=nltk.Text(tokens)

#只有转换了类型，才可以使用一些有意义的函数

text.concordance(‘gene’)

处理搜索引擎的结果

网络：被看作未经标注的巨大的语料库

搜索引擎的主要优势：

1、规模，一个庞大的文件集，很容易找到感兴趣的语言模式

2、容易使用

缺点：

1、允许的搜索方式范围收到严格限制，一般只允许搜索单个词或者词串

2、搜索引擎给出的结果不一致

3、搜索结果中的标记会不可预料的改变

处理RSS订阅

可以使用第三方Python库Universal Feed Parser来访问博客

读取本地文件

f=open(‘document.txt’)

raw=f.read()

#检查当前目录

import os

os.llistdir(‘.’)

#分行读取一个文件

for line in f:

print line.strip()

从PDF、MS Word及其他二进制格式中提取文本

第三方函数库pypdf和pywin32

捕获用户输入

s=raw_input(“Enter some text:”)

NLP的流程

查看全文

相关阅读:
Flex从页面（*.swf）url获取参数
 Flex 国际化
 Flex自定义事件二
 Flex中为各种控件绑定远程XML数据
 arp spoofing on linux
java定位内存泄漏点
 Drools 简单应用实例2
制作back track linux usb启动盘
 xss漏洞学习
 nmap在实战中的高级应用

原文地址：https://www.cnblogs.com/createMoMo/p/3097091.html