潭州课堂25班：Ph201805201 爬虫高级第四课 sclapy 框架 crawispider类 (课堂笔记） - 走看看

zoukankan html css js c++ java

潭州课堂25班：Ph201805201 爬虫高级第四课 sclapy 框架 crawispider类 (课堂笔记）

以上内容以 spider 类获取 start_urls 里面的网页

在这里平时只写一个，是个入口，之后通过 xpath 生成 url，继续请求，

crawispider 中多了个 rules

rules 中的参数

　　link_extractor 用来定义需要提取的连接

　　　　allow=() 　　　　满足（）中正则表达式的 url 会被提取，如果为空则全部匹配，

　　　　deny=()　　　　 满足（）中正则表达式的 url 不提取，优先级高于allow,

　　callback 回调函数

　　follow

实例：

新建个项目： scrapy startproject tenxun2

cd 到 tenxun2 目录下，创建执行文件， -t crawl 指的是个模板，如果不写，默认是 spider 类的模板，

　　scrapy genspider -t crawl xxx xxx.com

运行

运行命令： scrapy crawl ten

查看全文

相关阅读:
java面向对象（五）之多态
 java集合（list,set,map)
jQuery基础
 Numpy详解
 Pandas详解一
 Linux 解压缩
 Linux 磁盘挂载
 Linux 磁盘管理
 su和sudo命令详解
 Linux查看文件命令

原文地址：https://www.cnblogs.com/gdwz922/p/9758309.html

Copyright © 2011-2022 走看看