zoukankan      html  css  js  c++  java
  • python抓取网页引用的模块和类

    在Python3.x中,我们可以使用urlib这个组件抓取网页,urllib是一个URL处理包,这
    个包中集合了一些处理URL的模块,如下:
    1.urllib.request模块用来打开和读取URLs;
    2.urllib.error模块包含一些由urllib.request产生的错误,可以使用try进行捕捉处理;
    3.urllib.parse模块包含了一些解析URLs的方法;
    4.urllib.robotparser模块用来解析robots.txt文本文件.它提供了一个单独的
    RobotFileParser类,通过该类提供的can_fetch()方法测试爬虫是否可以下载一个页面。
    5.urllib.request.urlopen()函数用于实现对目标url的访问。
    函数原型如下:urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capat
    h=None, cadefault=False, context=None)
    • url 参数:目标资源在网路中的位置。可以是一个表示URL的字符串(如:htt
    p://www.xxxx.com/);也可以是一个urllib.request对象
    • data参数:data用来指明发往服务器请求中的额外的信息(如:在线翻译,
    在线答题等提交的内容)。HTTP是python中实现的众多网络通信http、https、
    ftp等协议中,唯一一个使用data 参数的,也就是说只有打开的是http网址的
    时候,自定义data参数才会有作用。
    • cafile、capath、cadefault 参数:用于实现可信任的CA证书的HTTP请求。(基
    本上很少用)
    • context参数:实现SSL加密传输。(基本上很少用)

  • 相关阅读:
    安装go版本
    golang简介
    安装MySQL
    art.dialog.art 中,将子页面窗口中的值传递给父框架中
    Windows7下安装CentOS
    生成uuid
    如何开启win7端口的图文教程
    PHPMailer不能发送邮件
    sql 如果关联表 没有值 设置 默认值
    php array 分页
  • 原文地址:https://www.cnblogs.com/wei23/p/10890551.html
Copyright © 2011-2022 走看看