zoukankan html css js c++ java

scrapy使用记录

　1 进入pip安装目录

python -m pip install --upgrade pip

pip install Scrapy

2. 创建一个项目

scrapy startproject test

3. 验证是否可用

scrapy shell https://blog.csdn.net/oscer2016/article/details/78007472

view(response)会用浏览器打开网页

4 开始爬虫

scrapy crawl quotes

5 谷歌xpath-helper 可用验证xpath获取的内容

http://quotes.toscrape.com/

/html/body/div/div[2]/div[1]/div[@class="quote"]/span[1] 获取所有的标题

response.xpath(‘/html/body/div/div[2]/div[1]/div[@class="quote"]/span[1]‘).extract()

import scrapy

class FirstSpider(scrapy.Spider):
    name = 'first'
    start_urls = ['http://quotes.toscrape.com/page/2/']

    def parse(self, response):
        print(response)
        content_list =  response.xpath('/html/body/div/div[2]/div[1]/div[@class="quote"]/span[1]/text()').extract()
        author_list =  response.xpath('/html/body/div/div[2]/div[1]/div[@class="quote"]/span[2]/small/text()').extract()
        for i,j in zip(content_list,author_list):
            print(i,":",j)

　scrapy crawl first　

USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'
设置ua setting文件里面配置

查看全文

相关阅读:
easyui-numberbox后台获取数据后，鼠标一点击就自动清空了
 easyui只显示年月，时间格式
 解决ASP.Net第一次访问慢的处理 IIS 7.5
解决ASP.Net第一次访问慢的处理（IIS8）
在SQL2005中修改数据库名称
 HTML代码中<%%>、<%=%>
c#中virtual, abstract和override的区别和用法
 Eclipse导入工程Some projects cannot be imported because they already exist in the workspace
mvn package
ipod导入音乐

原文地址：https://www.cnblogs.com/brady-wang/p/8794990.html

热门文章
1
图
 [HAOI2011] problem a
思维题飞行器
 树形DP
poj 3687
hdu 2177
hdu 4857
优先队列 stl 拓扑排序
 priority_queue（优先队列）用法总结