zoukankan      html  css  js  c++  java
  • 爬虫流程

    爬虫的流程

    网络爬虫的流程其实非常简单

    主要可以分为四部分:

    1 发起请求

    通过HTTP库向目标站点发起请求,即发送一个Request,请求可以包含额外的headers、data等信息,然后等待服务器响应。这个请求的过程就像我们打开浏览器,在浏览器地址栏输入网址:www.baidu.com,然后点击回车。这个过程其实就相当于浏览器作为一个浏览的客户端,向服务器端发送了 一次请求。

    2 获取响应

    如果服务器能正常响应,我们会得到一个ResponseResponse的内容便是所要获取的内容,类型可能有HTMLJson字符串,二进制数据(图片,视频等)等类型。这个过程就是服务器接收客户端的请求,进过解析发送给浏览器的网页HTML文件。

    3 解析内容

    得到的内容可能是HTML,可以使用正则表达式,网页解析库进行解析。也可能是Json,可以直接转为Json对象解析。可能是二进制数据,可以做保存或者进一步处理。这一步相当于浏览器把服务器端的文件获取到本地,再进行解释并且展现出来。

    4 保存数据

    保存的方式可以是把数据存为文本,也可以把数据保存到数据库,或者保存为特定的jpg,mp4 等格式的文件。这就相当于我们在浏览网页时,下载了网页上的图片或者视频。

    发送请求的请求方式

    主要有:GET/POST两种类型常用,另外还有HEAD/PUT/DELETE/OPTIONS

    GET和POST的区别就是:请求的数据GET是在url中,POST则是存放在头部


    URL,即统一资源定位符,也就是我们说的网址,统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。

    互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它


    URL的格式由三个部分组成: 第一部分是协议(协议类型)。 第二部分是存有该资源的主机IP地址(主机域名)。 第三部分是主机资源的具体地址(文件名)。

    请求头

    包含请求时的头部信息,如User-Agent,Host,Cookies等信息

    请求体 请求是携带的数据,如提交表单数据时候的表单数据(POST)

    HTTP协议介绍

    获取响应中的Response中包含了什么

    所有HTTP响应的第一行都是状态行,依次是当前HTTP版本号,3位数字组成的状态代码,以及描述状态的短语,彼此由空格分隔。

    响应状态

    有多种响应状态,如:200代表成功,301跳转,404找不到页面,502服务器错误

    响应头

    如内容类型,类型的长度,服务器信息,设置Cookie

    响应体

    最主要的部分,包含请求资源的内容,如网页HTMl,图片,二进制数据等

    网页文本:如HTML文档,Json格式化文本等 图片:获取到的是二进制文件,保存为图片格式 视频:同样是二进制文件 其他:只要请求到的,都可以获取

    HTTP协议介绍

    如何解析数据

    直接处理

    Json解析

    正则表达式处理

    BeautifulSoup解析处理

    PyQuery解析处理

    XPath解析处理

    关于抓取的页面数据和浏览器里看到的不一样的问题

    出现这种情况是因为,很多网站中的数据都是通过js,ajax动态加载的,所以直接通过get请求获取的页面和浏览器显示的不同。


    如何解决js渲染的问题?

    分析ajax Selenium/webdriver Splash PyV8,
    怎样保存数据

    文本:纯文本,Json,Xml等

    怎么保存数据

    关系型数据库:如mysql,oracle,sql server等结构化数据库

    非关系型数据库:MongoDB,Redis等key-value形式存储

    数据库使用

  • 相关阅读:
    考勤助手——基于CS三层结构的子系统设计
    淘宝网架构分析——反向代理
    软件架构风格——解释器风格详析
    软件架构风格
    考勤助手类图的设计
    任课教师管理考勤子系统之用例图
    考勤助手ER图2.0版本所存在的问题
    关于“考勤助手”体系架构风格的选取
    浅谈CDN技术的性能与优势
    软件体系结构——解释器风格的浅解
  • 原文地址:https://www.cnblogs.com/kai-/p/12115046.html
Copyright © 2011-2022 走看看