scrapy_全站爬取

zoukankan html css js c++ java

scrapy_全站爬取
如何查询scrapy有哪些模版？
scrapy genspider –list
如何创建crawl模版？

scrapy genspider -t crawl 域名
scrapy genspider -t crawl i.cnblogs.com
如何把搜索目录加入到环境变量？

setting：
import os import sys BASE_DIR = os.path.dirname(os.path.dirname(os.abspath(__file__))) sys.path.append(BASE_DIR)
全站爬取和普通爬虫有什么区别？

　　1. 继承不同，普通继承：scrapy.Spider，全站继承：CrawlSpider

　　2. 爬取策略不同，普通是指定url方向爬取，全站是爬取全站取出指定url进行解析

　　3. 由于爬虫策略不同，全站爬取相比较普通爬虫而言，多了个url筛选

什么是link_ectractor？

       url过滤和抽取，有一下几个参数，对满足条件的url进行解析

　　　　callback 　　　　　　　　　　回调函数

　　　　cb_kwargs 　　　　　　　　　传给link_ectractor 的参数

　　　　follow 　　　　　　　　　　　满足这个类型的URL是否进行跟踪

　　　　preocess_links　　　　　　　对url加入预处理函数

       　　allow = 正则        　　　　　　满足正则表达式的，才进行数据爬取

      　　 deny 　　　　　　　　　　　   和 allow相反

       　　allow_domains = []      　　　　在此域名下爬取

      　　 deny_allow   　　　　　　　　和 allow_domains 相反

       　　restrict_xpaths 　　　　　　　进一步限定爬取的页面区域

       　　restrict_css=()　　　　　　　　进一步限定爬取的页面区域
查看全文

相关阅读:
获取MAC地址的几种方式
 从0到100——知乎架构变迁史
 CSS3必须要知道的10个顶级命令
 leetcode: 3Sum Closest
leetcode: 3Sum
leetcode: Longest Common Prefix
leetcode: Roman to Integer
leetcode: Integer to Roman
leetcode: Container With Most Water
leetcode: Regular Expression Matching

原文地址：https://www.cnblogs.com/2bjiujiu/p/7367665.html