zoukankan      html  css  js  c++  java
  • python自然语言处理——3.1 从网络和硬盘访问文本

    微信公众号:数据运营人
    本系列为博主的读书学习笔记,如需转载请注明出处。

    第三章 加工原料文本

    3.1 从网络和硬盘访问文本电子书处理的HTML处理RSS订阅读取本地文件

    3.1 从网络和硬盘访问文本

    电子书

    NLTk语料库集合中存有古腾堡项目的一小部分样例文本,如果你对古腾堡项目其他的文本感兴趣,可以在http://www.gutenberg.org/catalog/上浏览其他书籍,下面以编号2554的文本《罪与罚》为例,简单介绍怎么通过Python访问。

    from urllib.request import urlopen
    url = "http://www.gutenberg.org/files/2554/2554-0.txt"
    raw = str(urlopen(url).read())
    print(raw)
    print(type(raw))
    print(len(raw))
    print(raw[:75])
    tokens = nltk.word_tokenize(raw)
    print(type(tokens))
    print(len(tokens))
    print(tokens[:10])
    text = nltk.Text(tokens)
    print(type(text))
    print(text[1020:1060])
    print(text.collocations())
    print(raw.find("PAPT I"))
    print(raw.rfind("End of Project Gutenberg's Crime"))
    print(raw[5303:1157681])
    print(raw.find("PART I"))
    处理的HTML
    from bs4 import BeautifulSoup
    url = "http://news.bbc.co.uk/2/hi/health/2284783.stm"
    html = str(urlopen(url).read())
    print(html[:60])
    raw = BeautifulSoup(html).get_text()
    tokens = nltk.word_tokenize(raw)
    print(tokens)
    tokens = tokens[96:399]
    text = nltk.Text(tokens)
    print(text.concordance('gene'))
    处理RSS订阅
    import feedparser
    llog = feedparser.parse("http://languagelog.ldc.upenn.edu/nll/?feed=atom")
    print(llog['feed']['title'])
    print(len(llog.entries))
    post = llog.entries[2]
    print(post.title)
    content = post.content[0].value
    print(content[:70])
    读取本地文件
    f = open('document.txt')
    raw = f.read()
  • 相关阅读:
    将node.js代码放到阿里云上,并启动提供外部接口供其访问
    Linux内核深度解析之内核互斥技术——读写信号量
    man 1 2 3 4...
    Android Sepolicy 相关工具
    selinux misc
    ext4 mount options
    tune2fs cmd(ext fs)
    /dev/tty node
    kernel misc
    fork & vfork
  • 原文地址:https://www.cnblogs.com/ly803744/p/10426359.html
Copyright © 2011-2022 走看看