zoukankan      html  css  js  c++  java
  • python scrapy 爬虫实例

    1 创建一个项目

    scrapy startproject basicbudejie

    2 编写爬虫

    import scrapy

    class Basicbudejie(scrapy.Spider):
    name = "joke"
    start_urls = ['http://www.budejie.com/text/']

    def parse(self, response):
    lines = response.css('div.j-r-list >ul >li')
    for li in lines:
    username = li.css('a.u-user-name::text').extract()
    conent = li.css('div.j-r-list-c-desc a::text').extract()
    yield {'username': username, 'content' : conent}

    3 运行爬虫

    scrapy list 然后,我们可以按照name来运行爬虫。

    scrapy crawl joke -o user.json

    设置编码

    我们在settings.py中添加下面的配置即可。

    FEED_EXPORT_ENCODING = 'utf-8'
  • 相关阅读:
    功能测试
    数据库
    loadrunner
    笔记
    基础知识
    类方法, 实例方法, 静态方法
    统计英文单词次数
    合并文件内容
    字典排序
    排序算法
  • 原文地址:https://www.cnblogs.com/james-roger/p/8681456.html
Copyright © 2011-2022 走看看