zoukankan      html  css  js  c++  java
  • Scrapy命令行工具

    一、任务描述

      本实验任务主要对Scrapy命令行工具进行一些基本操作,通过完成本实验任务,要求学生熟练掌握Scrapy命令行工具,并对Scrapy命令行的基本操作进行整理并填写工作任务报告。

    二、任务目标

    1、掌握Scrapy的命令行操作

    三、任务环境

    Ubuntu16.04、Python2.7

    四、任务分析

      Scrapy,Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。

    五、任务实施

    步骤1、环境准备

      右击Ubuntu操作系统桌面,从弹出菜单中选择【Open in Terminal】命令 打开终端。

      通过【cd /home】切换到home目录下。【ls】查看该目录下的所有内容。

    图1 切换目录

      【mkdir scrapy】在home目录下创建scrapy文件夹。

    图2 创建文件夹

    步骤2、全局命令

      【scrapy startproject [project_name]】用于创建一个名为project_name的Scrapy项目。

    图3 创建Scrapy项目

      【scrapy settings [options]】在项目中运行时,该命令将会输出项目的设定值,否则输出Scrapy默认设定

    图4 项目设定值

      【scrapy shell [url]】用来启动Scrapy shell,,URL为可选

    图5 启动shell
    图6 效果图

      【scrapy fetch [url]】使用scrapy下载器下载给定的URL,并将获取到的内容送到标准输出。该命令以Spider下载页面的方式获取页面,如果是在项目中运行,fetch将会使用项目中Spider的属性访问。如果在非项目中运行,则会使用默认Scrapy downloader设定。

    图7 获取页面

      【scrapy view [url]】在浏览器中打开给定的URL,并以Scrapy spider获取到的形式展示

    图8 URL

      浏览器打开百度页面。

    图9 打开百度

      【scrapy version [-v]】输出Scrapy版本,配合-v使用,该命令同时输出Python、Twisted以及平台的信息,方便Bug提交。

    图10 Scrapy版本

      【scrapy bench】用于运行benchmark测试,测试Scrapy在硬件上的效率
      【scrapy runspider spider_file.py】在未创建项目的情况下,运行一个编写好的spider模块。

    步骤3、项目命令

      【cp -R /home/soft/movie /home/scrapy/】拷贝Scrapy项目

    图11 拷贝项目

      【scrapy crawl [spider]】用来使用Spider进行爬取

    图12 运行项目

      查看爬取后的内容。

    图13 爬取内容

      【scrapy check [spider]】运行contract检查。

    图14 检查contract

      【scrapy list】列出当前项目中所有可用的spider,每行输出一个spider。

    图15 爬虫列表

      【scrapy edit [spider]】使用设定的编辑器编辑给定的spider。

    图16 编辑爬虫
    图17 编辑

      【scrapy parse [url] [options]】获取给定的URL并使用相应的Spider分析处理。

      【scrapy genspider [-t template] [name] [domail]】可以在当前项
    目中创建Spider。

  • 相关阅读:
    SQL Server 动态行转列(参数化表名、分组列、行转列字段、字段值)
    Web Api 跨域解决方案
    Web Api Session开启会话支持
    Web Service 学习
    省市选择器
    如何创建圆形头像和圆角图片
    E
    二叉树
    素数筛法
    Color Me Less
  • 原文地址:https://www.cnblogs.com/yu-1104/p/9050444.html
Copyright © 2011-2022 走看看