zoukankan      html  css  js  c++  java
  • python scrapy 爬虫实例

    1 创建一个项目

    scrapy startproject basicbudejie

    2 编写爬虫

    import scrapy

    class Basicbudejie(scrapy.Spider):
    name = "joke"
    start_urls = ['http://www.budejie.com/text/']

    def parse(self, response):
    lines = response.css('div.j-r-list >ul >li')
    for li in lines:
    username = li.css('a.u-user-name::text').extract()
    conent = li.css('div.j-r-list-c-desc a::text').extract()
    yield {'username': username, 'content' : conent}

    3 运行爬虫

    scrapy list 然后,我们可以按照name来运行爬虫。

    scrapy crawl joke -o user.json

    设置编码

    我们在settings.py中添加下面的配置即可。

    FEED_EXPORT_ENCODING = 'utf-8'
  • 相关阅读:
    Centos7.x做开机启动脚本
    贝叶斯方法之一
    R程序包
    c#调用R
    感悟--不可抗拒的行为
    IP等级
    词语
    关于editplus设置java和c#
    csc命令
    editplus配置csharp
  • 原文地址:https://www.cnblogs.com/james-roger/p/8681456.html
Copyright © 2011-2022 走看看