zoukankan      html  css  js  c++  java
  • Python之Scripy框架

    为什么要用到cmd界面 --- 在这里操作的是Scripy框架的指令,不是Python代码

    Parse --- Scripy的回调函数

    fiddler --- 用于爬取JS存储数据的页面

    项目:

      1. 创建一个scrapy项目

        cmd--进入scrapy.exe目录--scrapy startproject TestScrapy

           项目将和scrapy.exe在同一个目录下

      2. 创建爬虫,一个项目可以有多个爬虫

          在TestScrapy项目的spiders目录下,可以创建自己的spider

          (或者用Scrapy命令:scrapy genspider -t basic MySpider dangdang.com 然后把生成的.py复制到/TestScrapy/TestScrapy/spiders/下)

      3然后用pyCharm打开项目

      4. 运行Scripy框架  在cmd中,用......scrapy crawl DangSpider [--nolog]

      注意:  spider爬取到的Item是字典型, 字典型可以直接存入到MongoDB,但是不能存入到关系数据库

         固定的配置信息,都可以写在setting.py文件里

  • 相关阅读:
    HashMap底层实现原理(JDK1.8)源码分析
    JVM总结
    初识Nosql
    线程池总结
    Linux中常用操作命令
    JAVA—集合框架
    TeKtronix TDS210数字示波器使用简介
    硬盘的物理结构
    Unicode 与 UTF
    I2C串行总线
  • 原文地址:https://www.cnblogs.com/lynhou/p/8398124.html
Copyright © 2011-2022 走看看