zoukankan      html  css  js  c++  java
  • scrapy框架 简易整理

    - scrapy框架
     介绍:大而全的爬虫组件。
            
    安装:
                - Win:
                    下载:http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
                    
                    pip3 install wheel
                    pip install Twisted‑18.4.0‑cp36‑cp36m‑win_amd64.whl
                    
                    pip3 install pywin32
                    
                    pip3 install scrapy
                - Linux:
                    pip3 install scrapy
        
        
     使用:
                Django:
                    # 创建project
                    django-admin startproject mysite
                    
                    cd mysite
                    
                    # 创建app
                    python manage.py startapp app01
                    python manage.py startapp app02
                    
                    # 启动项目
                    python manage.runserver
                    
                Scrapy:
                    # 创建project
                    scrapy  startproject xdb
                    
                    cd xdb
                    
                    # 创建爬虫
                    scrapy genspider chouti chouti.com
                    scrapy genspider cnblogs cnblogs.com
                    
                    # 启动爬虫
                    scrapy crawl chouti
        
                
                
                
                1. 创建project
                    scrapy startproject 项目名称
                    
                    项目名称
                       项目名称/
                            - spiders                # 爬虫文件
                                - chouti.py
                                - cnblgos.py
                                ....
                            - items.py                 # 持久化
                            - pipelines                # 持久化
                            - middlewares.py        # 中间件
                            - settings.py             # 配置文件(爬虫)
                       scrapy.cfg                    # 配置文件(部署)
                
                2. 创建爬虫
                    cd 项目名称
                    
                    scrapy genspider chouti chouti.com
                    scrapy genspider cnblgos cnblgos.com
                    
                3. 启动爬虫
                    scrapy crawl chouti
                    scrapy crawl chouti --nolog
                    
    总结:
                - HTML解析:xpath
                - 再次发起请求:yield Request对象

  • 相关阅读:
    Java实现 LeetCode 432 全 O(1) 的数据结构
    Java实现 LeetCode 432 全 O(1) 的数据结构
    Makefile 自动生成依赖
    比较详细的利用虚拟机对SD卡FAT32+EXT4+Ext4分区图解教程
    STM32F0308开发环境的选择--CooCox CoIDE篇
    linux下包管理命令yum与apt-get以及开发环境配置
    裸机编程与OS环境编程的有关思考
    Eclipse C/C++环境配置
    Linux Eclipse代码提示功能设置(Java & C/C++)
    Linux下高效编写Shell——shell特殊字符汇总
  • 原文地址:https://www.cnblogs.com/l-jie-n/p/10017560.html
Copyright © 2011-2022 走看看