zoukankan      html  css  js  c++  java
  • 爬虫--总结

    1.接触过几种爬虫模块

      urllib,requests

    2.robots协议是什么?

      requests模块没有使用硬性的语法对该协议进行生效

      scrapy硬性的语法对该协议进行了生效

    3、如何处理验证码:

      云打码平台  打码兔

    4、掌握几种数据解析的方式

      正则,xpath,bs4

    5、如何爬取动态加载的页面数据

      1.selenium

      2.ajax,抓包工具,抓取异步发情的请求(url)

    6.接触过那些反爬机制?如何处理?

      robots协议=false、UA、封ip、验证码、动态数据爬取、数据加密、token---随机字符串

    7.在scrapy中接触过几种爬中的类

    提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法?
    
    方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法)。
    
    方法二:基于CrawlSpider的自动爬取进行实现(更加简洁和高效)。


     3.4 CrawlSpider整体爬取流程:

    
    

        a)爬虫文件首先根据起始url,获取该url的网页内容

    
    

        b)链接提取器会根据指定提取规则将步骤a中网页内容中的链接进行提取

    
    

        c)规则解析器会根据指定解析规则将链接提取器中提取到的链接中的网页内容根据指定的规则进行解析

    
    

        d)将解析数据封装到item中,然后提交给管道进行持久化存储

    
    

    基于spider创建爬虫文件:

    基于crwalSpider类的爬虫文件

      Spider(父类),CrwalSpider,RedisCrawlSpider , RedisSpider

    8.如何实现分布式流程:scrapy-redis

      再上面两种基础上建立然后进行修改

      RedisCrawlSpider , RedisSpider

    -------------------------------------------------------------------------------------------------------------------------

  • 相关阅读:
    socket 编程练习--UDP聊天程序
    练习 多线程
    练习二:求最大公约数
    练习一:单链表的反转,串的模式匹配
    【算法1】string 的全排列
    lw资料
    SDmenu滑动菜单获取导航连接部分代码
    FileOperate(个人资料)
    C/C++基本数据类型
    C++/MFC计算程序运行时间
  • 原文地址:https://www.cnblogs.com/foremostxl/p/10102988.html
Copyright © 2011-2022 走看看