zoukankan      html  css  js  c++  java
  • 聚焦爬虫

    聚焦爬虫

    一、概念:

    在通用爬虫的基础之上,可以将页面中指定的局部数据进行爬取。可以通过数据解析的方式将页面中局部的数据进行解析或者提取。


    二、编码流程:
    1. 指定url
    2. 发起请求
    3. 获取响应数据
    4. 数据解析
    5. 持久化存储
    

    三、利用数据解析的方式(四种)进行聚焦爬虫
    • 正则
    • bs4
    • xpath
    • pyquery

    四、数据解析的通用原理
    • html作用就是通过标签的形式进行数据的展示。在html中所有的标签遵从树状结构的。
    • html所要展示的数据是可以存储在哪里?
      • 存储在标签之间
      • 存储在标签的属性中
    • 数据解析实现的聚焦爬虫操作其实就是要把指定标签中存储的数据或者属性值进行解析或者提取。
    • 数据解析的原理
      • 1.标签的定位
      • 2.将该标签中存储的属性值或者文本内容取出即可
  • 相关阅读:
    运维工程师的四个阶段
    必须知道的Linux内核常识详解
    Centos7/RHEL7 开启kdump
    sort实现ip排序
    如何判断是否开启超线程
    Django---进阶12
    Django---进阶11
    前端---进阶8
    前端---进阶7
    前端---进阶6
  • 原文地址:https://www.cnblogs.com/fengting0913/p/13155575.html
Copyright © 2011-2022 走看看