zoukankan      html  css  js  c++  java
  • python网络爬虫

    爬虫流程

    • ①先由urllib的request打开Url得到网页html文档
    • ②浏览器打开网页源代码分析元素节点
    • ③通过Beautiful Soup或则正则表达式提取想要的数据
    • ④存储数据到本地磁盘或数据库(抓取,分析,存储)

    网络爬虫的第一步就是根据URL,获取网页的HTML信息。在Python3中,可以使用urllib.request和requests进行网页爬取。

    • urllib库是python内置的,无需我们额外安装,只要安装了Python就可以使用这个库。
    • requests库是第三方库,需要我们自己安装。

    使用requests库获取网页的HTML信息。requests库的github地址:https://github.com/requests/requests

    requests安装

    在cmd中,使用如下指令安装requests:

    pip install requests
    

    requests库的基础方法

    在这里插入图片描述

    requests.get()方法,它用于向服务器发起GET请求,requests.get()方法就是从服务器得到、抓住数据,也就是获取数据。

    # -*- coding:UTF-8 -*-
    import requests
    
    if __name__ == '__main__':
        target = 'http://gitbook.cn/'
        req = requests.get(url=target)
        print(req.text)
    

    requests.get()方法必须设置的一个参数就是url,因为我们得告诉GET请求,我们的目标是谁,我们要获取谁的信息。

  • 相关阅读:
    SQL整理5
    SQL整理1 数据类型
    SQL整理2
    JavaScript 的DOM操作
    JavaScript 数据类型
    JavaScript
    CSS样式表
    sqlserver数据库 提纲
    Python基础第十二天:二分法算法
    Python基础第十一天:递归函数
  • 原文地址:https://www.cnblogs.com/aixing/p/13327394.html
Copyright © 2011-2022 走看看