zoukankan      html  css  js  c++  java
  • 【语言处理与Python】3.1从网络和硬盘访问文本

    本章开始导入语句

    from __future__ import division
    
    import nltk,re,pprint
    
     

    3.1从网络和硬盘访问文本

    电子书

    from urllib import urlopen
    
    url=”http://www.gutenberg.org/files/2554/2554.txt”
    
    raw=urlopen(url).read()
    
    #如果使用了Internet代理,需要手工指定代理
    
    proxies={‘http’:’http://www.someproxy.com:3128’}
    
    raw=urlopen(url,proxies=proxies).read()
    
    #对得到的文本分词操作
    
    tokens=nltk.word_tokenize(raw)

    处理的HTML

    url=”http://news.bbc.co.uk/2/hi/health/2284783.stm”
    
    html=urlopen(url).read()
    
    #清楚不必要的标签和内容
    
    raw=nltk.clean_html(html)
    
    #分词
    
    tokens=nltk.word_tokenize(raw)
    
    #转换类型
    
    text.=nltk.Text(tokens)
    
    #只有转换了类型,才可以使用一些有意义的函数
    
    text.concordance(‘gene’)

    处理搜索引擎的结果

    网络:被看作未经标注的巨大的语料库

    搜索引擎的主要优势:

    1、规模,一个庞大的文件集,很容易找到感兴趣的语言模式

    2、容易使用

    缺点:

    1、允许的搜索方式范围收到严格限制,一般只允许搜索单个词或者词串

    2、搜索引擎给出的结果不一致

    3、搜索结果中的标记会不可预料的改变

    处理RSS订阅

    可以使用第三方PythonUniversal Feed Parser来访问博客

    读取本地文件

    f=open(‘document.txt’)
    
    raw=f.read()
    
    #检查当前目录
    
    import os
    
    os.llistdir(‘.’)
    
    #分行读取一个文件
    
    for line in f:
    
    print line.strip()

    PDFMS Word及其他二进制格式中提取文本

    第三方函数库pypdfpywin32

     

    捕获用户输入

    s=raw_input(“Enter some text:”)

     

    NLP的流程

  • 相关阅读:
    How a webpage is loaded and displayed
    Tree知识总结
    Install Cassandra Locally
    axios接口封装
    Jsonp解决跨域问题
    react使用swiper,解决添加点击事件首位图片点击失效,解决轮播按钮被覆盖问题
    vue 生产环境和测试环境的配置
    vue使用远程在线更新代码
    vue.js axios实现跨域http请求接口
    leetcode每日一题(2020-05-27):974. 和可被 K 整除的子数组
  • 原文地址:https://www.cnblogs.com/createMoMo/p/3097091.html
Copyright © 2011-2022 走看看