zoukankan      html  css  js  c++  java
  • Python爬虫的开发

    HTTP请求的Python实现帮助大家了解Python中实现HTTP请求的各种方式

    具备编写HTTP网络程序的能力

    ------

    通用网络爬虫  聚焦网络爬虫  增量式网络爬虫 深层网络爬虫

    -----

    实际的网络爬虫系统通常是几种爬虫技术相结合实现的

    0-----

    搜索引擎search  Engine

    通用的网络爬虫 存在一定的 局限性

    -------------

    常见的BT网站  通过爬取互联网的DHT网络中分享的BT种子信息

    提供对外搜索服务

    例如

    http://www.cilisou.cn

    ------

    云盘搜索网站  爬取 用户共享出来的云盘文件数据 对文件数据进行分类划分 

    http://www.pansou.com

    -----------

    种子URL  -----待抓取的URL---读取URL----》已下载网页数据----->抽取URL

    ------------

    urllib  Request  httplib

    ------

    我们首先了解一下 Urllib 库,它是 Python 内置的 HTTP 请求库,也就是说我们不需要额外安装即可使用,它包含四个模块:

    • 第一个模块 request,它是最基本的 HTTP 请求模块,我们可以用它来模拟发送一请求,就像在浏览器里输入网址然后敲击回车一样,只需要给库方法传入 URL 还有额外的参数,就可以模拟实现这个过程了。
    • 第二个 error 模块即异常处理模块,如果出现请求错误,我们可以捕获这些异常,然后进行重试或其他操作保证程序不会意外终止。
    • 第三个 parse 模块是一个工具模块,提供了许多 URL 处理方法,比如拆分、解析、合并等等的方法。
    • 第四个模块是 robotparser,主要是用来识别网站的 robots.txt 文件,然后判断哪些网站可以爬,哪些网站不可以爬的,其实用的比较少
    • ---------------
  • 相关阅读:
    《程序设计与数据结构》 课程教学
    ISO GPS定位,坐标转换以及如何显示
    iOS_生成pem推送证书(用于百度云推送)
    iOS 基础-----关于UIView 的 frame 与 bounds
    IOS开发之UIScrollVIew运用
    ios 精简日历
    IOS UIView自动调整尺寸
    IOS 实现录音PCM转MP3格式(边录音边转码)
    IOS开发UIImage中stretchableImageWithLeftCapWidth方法的解释
    ios Coredata 关联 UITableView 数据自动更新
  • 原文地址:https://www.cnblogs.com/yizhixuepython/p/9264454.html
Copyright © 2011-2022 走看看