zoukankan      html  css  js  c++  java
  • scrapy_全站爬取

    如何查询scrapy有哪些模版?

    scrapy genspider –list

    如何创建crawl模版?

           scrapy genspider -t crawl 域名

    scrapy genspider -t crawl i.cnblogs.com

    如何把搜索目录加入到环境变量?

           setting:

    import os
    import sys
    
    BASE_DIR = os.path.dirname(os.path.dirname(os.abspath(__file__)))
    sys.path.append(BASE_DIR)
    

    全站爬取和普通爬虫有什么区别?

      1. 继承不同,普通继承:scrapy.Spider,全站继承:CrawlSpider

      2. 爬取策略不同,普通是指定url方向爬取,全站是爬取全站取出指定url进行解析

      3. 由于爬虫策略不同,全站爬取相比较普通爬虫而言,多了个url筛选

    什么是link_ectractor?

           url过滤和抽取,有一下几个参数,对满足条件的url进行解析

        callback           回调函数

        cb_kwargs          传给link_ectractor 的参数

        follow            满足这个类型的URL是否进行跟踪

        preocess_links        对url加入预处理 函数

             allow = 正则               满足正则表达式的,才进行数据爬取

             deny               和 allow相反

             allow_domains = []          在此域名下爬取

             deny_allow            和 allow_domains 相反

             restrict_xpaths         进一步限定爬取的页面区域

             restrict_css=()         进一步限定爬取的页面区域

  • 相关阅读:
    zz--Add-Migration与EF及Mysql的使用。。
    最后学期
    E. Tree Queries 题解(思维+dfs序)
    D. 0-1 MST 题解(补图的联通块)
    F. Equalizing Two Strings 题解(思维)
    CSUST 白银御行想展示 题解(思维)
    E2. Rubik's Cube Coloring (hard version) 题解(dp+思维)
    D. Hemose in ICPC ? 题解(二分+dfs序+交互)
    C. Bakry and Partitioning 题解(思维+两次dfs)
    E. Bored Bakry 题解(二进制+思维)
  • 原文地址:https://www.cnblogs.com/2bjiujiu/p/7367665.html
Copyright © 2011-2022 走看看