python scrapy 爬虫实例

1 创建一个项目

scrapy startproject basicbudejie

2 编写爬虫

import scrapy

class Basicbudejie(scrapy.Spider):
    name = "joke"
    start_urls = ['http://www.budejie.com/text/']

    def parse(self, response):
        lines = response.css('div.j-r-list >ul >li')
        for li in lines:
            username = li.css('a.u-user-name::text').extract()
            conent = li.css('div.j-r-list-c-desc a::text').extract()
            yield {'username': username, 'content' : conent}

3 运行爬虫

scrapy list 然后，我们可以按照name来运行爬虫。

scrapy crawl joke -o user.json

设置编码

我们在settings.py中添加下面的配置即可。

FEED_EXPORT_ENCODING = 'utf-8'

查看全文

相关阅读:
Spring Boot 的单元测试和集成测试
 Containers vs Serverless：你选择谁，何时选择？
Java13新特性
 Java中创建对象的5种方法
 最好的重试是指数后退和抖动
 杂谈：面向微服务的体系结构评审中需要问的三个问题
 使用Quarkus在Openshift上构建微服务的快速指南
 Java EE—最轻量级的企业框架?
AQS机制
 JVM-内存模型

原文地址：https://www.cnblogs.com/james-roger/p/8681456.html