zoukankan      html  css  js  c++  java
  • scrapy(一)建立一个scrapy项目

    本项目实现了获取stack overflow问题,使用python语言,scrapy框架,选取mongoDB作为持久化数据库,redis做为数据缓存

    项目源码可以参考我的github:https://github.com/corolcorona/StacksSpider

    1.创建一个scrapy项目

    在创建的目录下执行命令:scrapy startproject 项目名

    这样就创建好了一个名为stackspider的项目, 创建成功后,项目会产生以下文件

     

    常用到的:

    • settings.py 爬虫相关的配置信息,数据库配置等
    • items.py    定义数据格式,可以用来保存爬取得数据,类似于python的字典
    • pipelines    数据持久化,处理items保存的数据
    • spiders       爬虫目录,写具体的爬虫可以在此文件夹下增加python文件

    2.使用scrapy

    创建完成后已有提示,所以我们创建一个用于抓取网站的文件名为stack

    我们可以通过scrapy crawl 爬虫的name 来进行运行

    但是这样会报错Crawled (403) <GET > (referer: None)或者Crawled (200) <GET > (referer: None)

    原因是网站的反爬虫策略,所以我们可以

    1.设置代理进行执行在命令上加上-s USER_AGENT='Mozilla/5.0'

    2.修改scrapy的user-agent默认值

    通过第一种方法我们可以获取到网页的html

    项目就搭建好了

     

  • 相关阅读:
    2018 ICPC 徐州网络赛
    2018 CCPC网络赛
    2013 NEERC
    2015 Dhaka
    2018ICPC南京网络赛
    Codeforces Round #505
    Codeforces Round #504 E. Down or Right
    Codeforces Round #504 D. Array Restoration
    2018 Multi-University Training Contest 3
    2018 Multi-University Training Contest 2
  • 原文地址:https://www.cnblogs.com/corolcorona/p/6801960.html
Copyright © 2011-2022 走看看