zoukankan      html  css  js  c++  java
  • Python Scrapy框架:数据爬取全流程

    前言

    本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

    作者:nanyc

    Scrapy的下载

    在终端中输入代码'pip3 install scrapy'。

    Python Scrapy框架:数据爬取全流程

     

    创建Scrapy项目

    假设你希望将项目保存至桌面名为Python的文件夹中。可以在终端中输入'cd ',并将Python文件夹拖拽至其后。换行后,继续输入'scrapy startproject ScrapyProject',此处的ScrapyProject为该项目的名字,可根据情况自行定义。

    Python Scrapy框架:数据爬取全流程

     

    定义items数据

    Scrapy项目创建成功后,我们可以在其所在的文件夹里看到spiders,pipelines.py,middlewares.py,settings.py等一系列文件。我们需要做的是在其中找到items.py,并对其进行修改。此处的重点在于定义所需数据的属性,其中主要会使用到scrapy.Field()。

    Python Scrapy框架:数据爬取全流程

     

    创建爬虫文件

    同样在ScrapyProject文件夹内,找到spiders文件夹,并在内创建一个新的爬虫文件,如下图的book.py。(需要与_pychache_及_init_文件同级。)

    Python Scrapy框架:数据爬取全流程

     

    编辑爬虫文件

    此处的爬虫文件为整个Scrapy项目的核心,数据的解析与提取都是在这一步进行的。

    Python Scrapy框架:数据爬取全流程

     

    运行Scrapy程序

    在ScrapyProject文件夹内,找到settings.py文档,并更改好user_agent相关信息。之后再在终端输入代码scrapy crawl book即可。(book为此爬虫的名字。)

    注:上述内容皆为Mac环境下的操作。

    PS:如有需要Python学习资料的小伙伴可以加下方的群去找免费管理员领取

    Python Scrapy框架:数据爬取全流程

     

    可以免费领取源码、项目实战视频、PDF文件等

    Python Scrapy框架:数据爬取全流程
  • 相关阅读:
    函数宏实现循环左移
    函数宏判断小端
    Linux下32位与64位数据类型大小
    转:C语言嵌入式系统编程之软件架构篇
    转:详解大端小段模式
    time函数计算时间
    匈牙利命名法
    20131030
    20131029
    20131028
  • 原文地址:https://www.cnblogs.com/hhh188764/p/13460282.html
Copyright © 2011-2022 走看看