zoukankan      html  css  js  c++  java
  • scrapy框架简介与安装启动

      Scrapy 是一个专业的、高效的爬虫框架,它使用专业的 Twisted 包(基于事件驱动的网络引擎包)高效地处理网络通信,使用 lxml(专业的 XML 处理包)、cssselect 高效地提取 HTML 页面的有效信息,同时它也提供了有效的线程管理。

    安装scrapy

    pip3 install scrapy

    在windows如果报错的话按以下方式安装(缺少环境,或者直接下载VS):
        pip3  install wheel
        下载twisted   https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
        进入下载目录,执行  pip3 install Twisted‑17.1.0‑cp35‑cp35m‑win_amd64.whl
        pip3   install  pywin32
        pip3   install  scrapy

    项目创建与启动

    #scrapy项目创建
    scrapy startproject xxx(项目名)-----创建爬虫项目
    cd xxx(项目名)--------必须要进入项目文件
    scrapy genspider xx(爬虫文件) url(起始url,后期可修改)--------创建爬虫应用
    #scrapy项目启动
    scrapy crawl xx(爬虫文件)----需要进入爬虫文件所在的目录
    scrapy crawl 爬虫文件 --nolog:该种执行形式不会显示执行的日志信息

        

        

     项目中创建的默认爬虫文件
     1 import scrapy
     2 
     3 
     4 class FirstbaiduSpider(scrapy.Spider):
     5     name = 'firstBaidu'#爬虫文件(应用)名
     6     # allowed_domains = ['https://www.baidu.com/']#域名限定,一般直接注释
     7     start_urls = ['https://www.baidu.com//']#起始url,创建应用时指定的,可修改
     8 
     9     def parse(self, response):#自动访问起始URL并获取结果后的回调函数,参数respons为起始请求的响应对象,可以直接调用封装好的xpath解析
    10         pass
    默认创建的爬虫文件
     

     

     

     

  • 相关阅读:
    java抽象类和接口
    java的三大特征:封装,继承和多态
    java的数组
    django 4.get接口开发
    django 3.post接口开发
    C# 程序启动最小化至任务栏及闪烁
    续Html5
    使用intellij idea搭建MAVEN+SSM(Spring+SpringMVC+MyBatis)框架
    Spring MVC拦截器
    Html5高级
  • 原文地址:https://www.cnblogs.com/open-yang/p/11328936.html
Copyright © 2011-2022 走看看