zoukankan      html  css  js  c++  java
  • Python爬虫学习(一)

    一、了解爬虫

    • 通过程序自动的获取web页面数据

    主要步骤:

    1. 发送request
    2. 获得response
    3. 解析数据
    4. 保存数据

    二、Request和Response

    1、Request:浏览器发送消息给网址所在的服务器

    包含内容:

    •   请求方式:post(请求的数据存放在头部)和get(请求的数据在url中)
    •        请求url--网址:协议、存有该资源的主机ip地址、主机资源的具体地址,如目录和文件名
    •        请求头:包含请求时的头部信息,如:User-Agent,host,cookies等
    •        请求体:携带的数据

    2、Response:服务器接收到浏览器发来的请求,根据请求,做相应的处理,传回给浏览器

    包含内容:

    • 第一行:状态行
    • 响应状态
    • 响应头
    • 响应体:请求的资源内容

    三、如何解析数据

    1、Json解析

    2、正则表达式处理

    3、Beautiful Soup解析处理

    4、PyQuery解析处理

    5、XPath解析处理

  • 相关阅读:
    RSA加密算法
    ios 经典错误
    C--指针函数,static
    svn---命令行操作
    iOS中的自由桥接
    ios--socket
    ios错误修改了系统头文件
    ios数据库FMDB
    CoreDate的使用
    ios简单数据库运用
  • 原文地址:https://www.cnblogs.com/cola-1998/p/12827192.html
Copyright © 2011-2022 走看看