zoukankan      html  css  js  c++  java
  • Python爬虫入门

    一.

    from urllib import request

    res=request.urlopen('https://www.douban.com')
    data = res.read()
    print(data.decode('utf-8'))
    通过以上代码可以获取到豆瓣网页源码。

    1.
    urllib提供的功能就是利用程序去执行各种HTTP请求。如果要模拟浏览器完成特定功能,需要把请求伪装成浏览器。伪装的方法是先监控浏览器发出的请求,再根据浏览器的请求头来伪装,User-Agent头就是用来标识浏览器的。
    2.req=request.urlopen('https://www.douban.com')

    首先我们调用的是request模块里面的urlopen方法,传入一个URL,这个网址是豆瓣首页,协议是HTTP协议,当然你也可以把HTTP换做FTP,FILE,HTTPS 等等,只是代表了一种访问控制协议,urlopen一般接受三个参数,它的参数如下:

    urlopen(url, data, timeout)

    第一个参数url即为URL(必须传入),第二个参数data是访问URL时要传送的数据(非必须),第三个timeout是设置超时时间(非必须)

    第二三个参数是可以不传送的,data默认为空None,timeout默认为 socket._GLOBAL_DEFAULT_TIMEOUT

    第一个参数URL是必须要传送的,在这个例子里面我们传送了豆瓣的URL,执行urlopen方法之后,返回一个response对象,返回信息便保存在这里面。

    3.

    data = res.read()

    res对象有一个read方法,可以返回获取到的网页内容。如果不通过read()方法而直接print res对象,会打印出该对象的描述,而不是网页代码。

  • 相关阅读:
    将动态aspx页面转换成为静态html页面的几种方法
    IHttpHandler 概述
    .Net,你究竟有多慢
    Js离开提示
    vs2008Webconfig文件
    什么是URL转发和一个IP建多个Web站点主机头名法
    sqlserver 统计sql语句大全收藏
    web.config 读写操作
    httpModules 与 httpHandlers
    简单的介绍一下常用的正规表示式:
  • 原文地址:https://www.cnblogs.com/youth-dream/p/7400451.html
Copyright © 2011-2022 走看看