zoukankan      html  css  js  c++  java
  • python网络爬虫

    爬虫流程

    • ①先由urllib的request打开Url得到网页html文档
    • ②浏览器打开网页源代码分析元素节点
    • ③通过Beautiful Soup或则正则表达式提取想要的数据
    • ④存储数据到本地磁盘或数据库(抓取,分析,存储)

    网络爬虫的第一步就是根据URL,获取网页的HTML信息。在Python3中,可以使用urllib.request和requests进行网页爬取。

    • urllib库是python内置的,无需我们额外安装,只要安装了Python就可以使用这个库。
    • requests库是第三方库,需要我们自己安装。

    使用requests库获取网页的HTML信息。requests库的github地址:https://github.com/requests/requests

    requests安装

    在cmd中,使用如下指令安装requests:

    pip install requests
    

    requests库的基础方法

    在这里插入图片描述

    requests.get()方法,它用于向服务器发起GET请求,requests.get()方法就是从服务器得到、抓住数据,也就是获取数据。

    # -*- coding:UTF-8 -*-
    import requests
    
    if __name__ == '__main__':
        target = 'http://gitbook.cn/'
        req = requests.get(url=target)
        print(req.text)
    

    requests.get()方法必须设置的一个参数就是url,因为我们得告诉GET请求,我们的目标是谁,我们要获取谁的信息。

  • 相关阅读:
    Flsak中的socket是基于werkzeug实现的。
    Flask中的CBV
    beego——静态文件
    beego——模板函数
    beego——模板处理
    beego——模板语法
    beego——模型定义
    beego——事务处理和命令模式
    beego——构造查询
    beego——原生SQL查询
  • 原文地址:https://www.cnblogs.com/aixing/p/13327394.html
Copyright © 2011-2022 走看看