zoukankan      html  css  js  c++  java
  • Python之定向爬虫Scrapy

    1.Scrapy介绍

      Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。
      Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等。

    2.Scrapy安装

    1)安装libxml2:

     输入命令:pip install lxml

    2) 安装Zope.Interface

     输入命令:pip install zope.interface

    3) 安装Twisted

     输入命令:pip install Twisted

    4) 安装pyOpenSSL

     输入命令:pip install pyOpenSSL

    5)安装pywin32

     输入命令:pip install win32py

    6)安装Scrapy

     输入命令:pip install scrapy

     3.创建项目

    输入命令:scrapy startproject tutorial

    这些文件主要是:

    scrapy.cfg: 项目配置文件

    tutorial/: 项目python模块, 呆会代码将从这里导入

    tutorial/items.py: 项目items文件

    tutorial/pipelines.py: 项目管道文件

    tutorial/settings.py: 项目配置文件

    tutorial/spiders: 放置spider的目录

  • 相关阅读:
    regex
    ubuntu 14.04 更新 gcc/g++ 4.9.2
    然而我又更新博客了。
    我一万年也不更新一次博客
    区块链
    mongodb查看数据库和表的信息
    js高级总结
    es6 新特性
    Flex 布局教程:实例篇
    常用 Git 命令清单
  • 原文地址:https://www.cnblogs.com/cnki/p/5698444.html
Copyright © 2011-2022 走看看