python应用：爬虫框架Scrapy系统学习第三篇——初识scrapy - 走看看

zoukankan html css js c++ java

python应用：爬虫框架Scrapy系统学习第三篇——初识scrapy

scrapy的最通用的爬虫流程：UR²IM

　　U：URL

　　R²：Request 以及 Response

　　I：Item

　　M：More URL

在scrapy shell中打开服务器一个网页

　　cmd中执行：scrapy shell http://www.baidu.com    （可以使用exit()退出）

　　

　　

此时，scrapy执行一个默认的GET请求，并得到一个状态码为200的响应

可以使用response.body打印页面源码（或部分字符）

例：response.body[:50]

　　

同时，也可使用response.xpath(' ')来测试XPath表达式的效果

例：response.xpath('//*[@id="su"]')          获取百度一下按钮处的源码

　　

　　response.xpath('//*[@id="su"]').xpath('.//@value')    获取上述局部源码中的value属性值

　　注：.//@value是相对XPath表达式；用于获取selector的得到的局部源码中的信息

　　

　　response.xpath('//*[@id="su"]').xpath('.//@value').extract()    获取上述结果中的源码（源码不等于selector，等于data值）

　　

下一步操作是：从响应中将数据抽取到Item的字段中（通常使用/text()获取文本字段）

　　通常，我们使用//*[@id="su"][1]这种形式。

　　目的：为防止结尾某些细微之处的嵌套信息没有注意到

查看全文

相关阅读:
ASP.NET MVC5 生成验证码
 System.Web.Caching.Cache类 Asp.Net缓存各种缓存依赖
 ASP.NET访问网络驱动器（映射磁盘）
ASP.NET Cache 实现依赖Oracle的缓存策略
 目前主流的四大浏览器内核Trident、Gecko、WebKit以及Presto
ASP.NET 5 改名 ASP.NET Core 1.0
C# 7.0新加特性
 elasticsearch 单实例安装启动
 关于mybatis 一级缓存引发的问题
 关于springboot 打包问题 jar包和 war包

原文地址：https://www.cnblogs.com/jpapplication/p/10295774.html

Copyright © 2011-2022 走看看