zoukankan      html  css  js  c++  java
  • 爬虫scrapy框架的使用

    第一步 下载scrapy模块:

      pip install scrapy

    第二步 创建项目

      在终端/cmd进入创建项目的目录:scrapy startproject douban(项目名)

      导入pycharm

    第三步 创建爬虫类

      1.在terminal中进入项目中的spiders目录:

      输入scrapy genspider douban_spider movie.douban.com(爬虫,爬取域的范围)

    第四步 设置

      1.将ROBOTSTXT_OBEY = True 改为 False

      2.打开管道:

      ITEM_PIPELINES = {
      'douban.pipelines.DoubanPipeline': 300,
      }

      3.打开该设置并修改:

      DEFAULT_REQUEST_HEADERS = {

      'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
      'Accept-Language': 'en',
      'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36"
      }

    第五步 编写项目

       1.在items中编写创建的爬虫中的爬虫类,爬取数据

      2.在pipelines.python中编写管道,储存数据

      3.运行:

      在命令中输入: scrapy crawl douban_spider(爬虫名)

  • 相关阅读:
    如何勾选 servlet如何获取?
    过滤器 如何实现获取不到用户名跳转回登录界面
    验证码
    cookie保存用户名及密码
    游标
    存储过程和自定义函数的区别
    瞎搞
    sql 试图索引
    sql 常用函数
    sql 简单的定义变量 声明 输出
  • 原文地址:https://www.cnblogs.com/Jokerguigui/p/11660579.html
Copyright © 2011-2022 走看看