scrapy学习笔记 1,第一次使用scrapy

zoukankan html css js c++ java

scrapy学习笔记 1,第一次使用scrapy

第一次使用scrapy，记下爬过的坑

1,xpath语法,xpath语法用于选取需要的数据，用过bs4会比较好的理解它，类似于从一目录树查找，

xpath('/html/body/div/div'),这是绝对路径找数据

xpath('//*[@id = “niubi”]'),这是相对路径找数据

还可以选择从绝对路径到某一路径下，找一个“特殊”的数据

xpath('//*a/html/body/div1/div2),找div2下的所有a标签

2,找到后，需要实例化，这是第二个坑，实例化有extract()函数，然后才能转换成字符串，之后就能操作数据了

3,在爬虫脚本中，spider中，如果需要定义全局变量，千万不能定义name，估计一些scrapy的关键字也不能定义，不然爬虫莫名死掉

4,回调函数，parse中的值，不能传入回调函数中，不知道是不是我技术不行呢，就是传不进去- -

5,item，在起始位置，from导入之后，需要在使用的函数内，或者说class中定义静态方法，item = xxxitem()，不然它不认识你的数组，但是在pipeline中却不需要

1 # -*- coding: utf-8 -*-

import scrapy

from text.items import TextItem

import sys

class ExampleSpider(scrapy.Spider):

name = "qunimade"

allowed_domains = ["biquge.com.tw"]

start_urls = ( 10 'http://www.biquge.com.tw/11_11850',)

global d,n

d = {} 13 n = ''

def parse(self,response):

shou = response.xpath('/html/body/div/div/div/dl/dd/a/@href')

wen = response.xpath('/html/body/div/div/div/dl/dd/a/text()')

n = response.xpath('/html/body/div/div/div/div/h1/text()').extract()[0]

x = 1

for t in wen.extract():

t.strip() 21 d[t] = x

x = x + 1 23 po = 'http://www.biquge.com.tw'

for i in shou.extract(): 26 p = po + i 27 yield scrapy.Request(p,callback = self.parse_1) 28 29 30 31 32 def parse_1(self, response): 33 item = TextItem() 34 h1 = response.xpath('/html/body/div/div/div/div/h1/text()') 35 r = h1[0].extract() 36 r = r.strip() 37 item['zhangjie'] = r 38 tt = d[r]

查看全文

相关阅读:
Apache Kafka（七）- Kafka ElasticSearch Comsumer
【数据库】SQL经典面试题
 【数据库】SQL经典面试题
 【数据库】软件安全测试之SQL注入
 Jmeter代理服务器设置
 代理服务器之趣谈工作原理
 Jmeter之解决烦人的中文乱码问题
 Python之测试webservice接口
 Jmeter录制脚本工具之chrome插件--BlazeMeter
如何利用Jmeter做代理录制脚本

原文地址：https://www.cnblogs.com/fengganlmei/p/8111583.html