zoukankan      html  css  js  c++  java
  • 爬虫scrapy框架的使用

    第一步 下载scrapy模块:

      pip install scrapy

    第二步 创建项目

      在终端/cmd进入创建项目的目录:scrapy startproject douban(项目名)

      导入pycharm

    第三步 创建爬虫类

      1.在terminal中进入项目中的spiders目录:

      输入scrapy genspider douban_spider movie.douban.com(爬虫,爬取域的范围)

    第四步 设置

      1.将ROBOTSTXT_OBEY = True 改为 False

      2.打开管道:

      ITEM_PIPELINES = {
      'douban.pipelines.DoubanPipeline': 300,
      }

      3.打开该设置并修改:

      DEFAULT_REQUEST_HEADERS = {

      'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
      'Accept-Language': 'en',
      'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36"
      }

    第五步 编写项目

       1.在items中编写创建的爬虫中的爬虫类,爬取数据

      2.在pipelines.python中编写管道,储存数据

      3.运行:

      在命令中输入: scrapy crawl douban_spider(爬虫名)

  • 相关阅读:
    html5 本地存储
    javascript 中的 this 关键字详解
    重绘和回流
    javascript 的预解释机制
    zepto.js 实现原理解析
    python3.6新特性
    python面试终极准备
    科大讯飞语音合成api
    智能儿童玩具
    MySQL与MongoDB
  • 原文地址:https://www.cnblogs.com/Jokerguigui/p/11660579.html
Copyright © 2011-2022 走看看