zoukankan      html  css  js  c++  java
  • scrapy框架 简易整理

    - scrapy框架
     介绍:大而全的爬虫组件。
            
    安装:
                - Win:
                    下载:http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
                    
                    pip3 install wheel
                    pip install Twisted‑18.4.0‑cp36‑cp36m‑win_amd64.whl
                    
                    pip3 install pywin32
                    
                    pip3 install scrapy
                - Linux:
                    pip3 install scrapy
        
        
     使用:
                Django:
                    # 创建project
                    django-admin startproject mysite
                    
                    cd mysite
                    
                    # 创建app
                    python manage.py startapp app01
                    python manage.py startapp app02
                    
                    # 启动项目
                    python manage.runserver
                    
                Scrapy:
                    # 创建project
                    scrapy  startproject xdb
                    
                    cd xdb
                    
                    # 创建爬虫
                    scrapy genspider chouti chouti.com
                    scrapy genspider cnblogs cnblogs.com
                    
                    # 启动爬虫
                    scrapy crawl chouti
        
                
                
                
                1. 创建project
                    scrapy startproject 项目名称
                    
                    项目名称
                       项目名称/
                            - spiders                # 爬虫文件
                                - chouti.py
                                - cnblgos.py
                                ....
                            - items.py                 # 持久化
                            - pipelines                # 持久化
                            - middlewares.py        # 中间件
                            - settings.py             # 配置文件(爬虫)
                       scrapy.cfg                    # 配置文件(部署)
                
                2. 创建爬虫
                    cd 项目名称
                    
                    scrapy genspider chouti chouti.com
                    scrapy genspider cnblgos cnblgos.com
                    
                3. 启动爬虫
                    scrapy crawl chouti
                    scrapy crawl chouti --nolog
                    
    总结:
                - HTML解析:xpath
                - 再次发起请求:yield Request对象

  • 相关阅读:
    将数组转换为 List, 使用 Collections.addAll(arrayList, array)
    Numpy学习笔记
    sql 批量修改字段内容
    sql 查询的优化
    选择低薪喜欢的工作, 还是高薪不喜欢的工作 ?
    Tornado + Bootstrap 快速搭建自己的web应用
    sql查询出现次数最多的记录的名称和现次数以及QT聚合查找失败解决
    idea中修改git提交代码的用户名
    初识Spring Cloud与微服务
    微信小程序解析富文本的几种方法
  • 原文地址:https://www.cnblogs.com/l-jie-n/p/10017560.html
Copyright © 2011-2022 走看看