zoukankan      html  css  js  c++  java
  • 【语言处理与Python】3.1从网络和硬盘访问文本

    本章开始导入语句

    from __future__ import division
    
    import nltk,re,pprint
    
     

    3.1从网络和硬盘访问文本

    电子书

    from urllib import urlopen
    
    url=”http://www.gutenberg.org/files/2554/2554.txt”
    
    raw=urlopen(url).read()
    
    #如果使用了Internet代理,需要手工指定代理
    
    proxies={‘http’:’http://www.someproxy.com:3128’}
    
    raw=urlopen(url,proxies=proxies).read()
    
    #对得到的文本分词操作
    
    tokens=nltk.word_tokenize(raw)

    处理的HTML

    url=”http://news.bbc.co.uk/2/hi/health/2284783.stm”
    
    html=urlopen(url).read()
    
    #清楚不必要的标签和内容
    
    raw=nltk.clean_html(html)
    
    #分词
    
    tokens=nltk.word_tokenize(raw)
    
    #转换类型
    
    text.=nltk.Text(tokens)
    
    #只有转换了类型,才可以使用一些有意义的函数
    
    text.concordance(‘gene’)

    处理搜索引擎的结果

    网络:被看作未经标注的巨大的语料库

    搜索引擎的主要优势:

    1、规模,一个庞大的文件集,很容易找到感兴趣的语言模式

    2、容易使用

    缺点:

    1、允许的搜索方式范围收到严格限制,一般只允许搜索单个词或者词串

    2、搜索引擎给出的结果不一致

    3、搜索结果中的标记会不可预料的改变

    处理RSS订阅

    可以使用第三方PythonUniversal Feed Parser来访问博客

    读取本地文件

    f=open(‘document.txt’)
    
    raw=f.read()
    
    #检查当前目录
    
    import os
    
    os.llistdir(‘.’)
    
    #分行读取一个文件
    
    for line in f:
    
    print line.strip()

    PDFMS Word及其他二进制格式中提取文本

    第三方函数库pypdfpywin32

     

    捕获用户输入

    s=raw_input(“Enter some text:”)

     

    NLP的流程

  • 相关阅读:
    06--添加卡片到游戏
    05--创建卡片类
    04--帮助类ScreenAdapter编写
    03--重新规划程序结构
    02--2048实例搭建滑动框架
    iOS下的 Fixed + Input BUG现象
    textarea高度自适应自动展开
    margin负值问题
    audio元素和video元素在ios和andriod中无法自动播放
    js递归
  • 原文地址:https://www.cnblogs.com/createMoMo/p/3097091.html
Copyright © 2011-2022 走看看