zoukankan      html  css  js  c++  java
  • 【语言处理与Python】3.1从网络和硬盘访问文本

    本章开始导入语句

    from __future__ import division
    
    import nltk,re,pprint
    
     

    3.1从网络和硬盘访问文本

    电子书

    from urllib import urlopen
    
    url=”http://www.gutenberg.org/files/2554/2554.txt”
    
    raw=urlopen(url).read()
    
    #如果使用了Internet代理,需要手工指定代理
    
    proxies={‘http’:’http://www.someproxy.com:3128’}
    
    raw=urlopen(url,proxies=proxies).read()
    
    #对得到的文本分词操作
    
    tokens=nltk.word_tokenize(raw)

    处理的HTML

    url=”http://news.bbc.co.uk/2/hi/health/2284783.stm”
    
    html=urlopen(url).read()
    
    #清楚不必要的标签和内容
    
    raw=nltk.clean_html(html)
    
    #分词
    
    tokens=nltk.word_tokenize(raw)
    
    #转换类型
    
    text.=nltk.Text(tokens)
    
    #只有转换了类型,才可以使用一些有意义的函数
    
    text.concordance(‘gene’)

    处理搜索引擎的结果

    网络:被看作未经标注的巨大的语料库

    搜索引擎的主要优势:

    1、规模,一个庞大的文件集,很容易找到感兴趣的语言模式

    2、容易使用

    缺点:

    1、允许的搜索方式范围收到严格限制,一般只允许搜索单个词或者词串

    2、搜索引擎给出的结果不一致

    3、搜索结果中的标记会不可预料的改变

    处理RSS订阅

    可以使用第三方PythonUniversal Feed Parser来访问博客

    读取本地文件

    f=open(‘document.txt’)
    
    raw=f.read()
    
    #检查当前目录
    
    import os
    
    os.llistdir(‘.’)
    
    #分行读取一个文件
    
    for line in f:
    
    print line.strip()

    PDFMS Word及其他二进制格式中提取文本

    第三方函数库pypdfpywin32

     

    捕获用户输入

    s=raw_input(“Enter some text:”)

     

    NLP的流程

  • 相关阅读:
    深入理解协程(三):async/await实现异步协程
    AES中ECB模式的加密与解密(Python3.7)
    深入理解协程(二):yield from实现异步协程
    系统结构实践期末大作业
    第7次实践作业
    第6次实践作业
    第5次实践作业
    第4次实践作业
    第3次实践作业
    第2次实践作业
  • 原文地址:https://www.cnblogs.com/createMoMo/p/3097091.html
Copyright © 2011-2022 走看看