zoukankan      html  css  js  c++  java
  • scrapy框架的初始

    Scrapy框架(爬虫框架)

    • 什么是Scrapy?

      • Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍。所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化存储等)的具有很强通用性的项目模板。对于框架的学习,重点是要学习其框架的特性、各个功能的用法即可。
    • 安装scrapy

    • scrapy的使用方法:

      • 创建项目: scrapy startproject xxx
      • 创建爬虫文件: scrapy genspider first www.xxx.com
      • 执行爬虫文件:scrapy crawl first
      • 执行爬虫文件不打印日志: scrapy crawl budejie --nolog
      • 执行爬虫文件并持久化存储到csv文件中: scrapy crawl budejie -o budejie.csv
    • 管道持久化存储

      • 文件存储: 可以实现任意文件类型的存储
      • mysql存储:
        • 创建连接
        • 创建游标
        • 使用事务
        • 关闭游标和连接
      • redis存储
        • 创建连接
        • 存储的数据需要进行json序列化
        • 关闭连接
  • 相关阅读:
    PDO的预处理操作
    关于OOP(面向对象)
    关于MySql
    任务三
    任务二
    php文件操作
    php的会话技术
    php的常量 、变量和作用域
    php的函数和超全局变量
    预发布环境和分支部署
  • 原文地址:https://www.cnblogs.com/youhongliang/p/12708338.html
Copyright © 2011-2022 走看看