zoukankan      html  css  js  c++  java
  • scrapy 简单介绍

    这篇主要介绍的是在Windows环境安装scrapy以及用创建一个spider

    一 ,  install Scrapy(首先检查Python环境 , 现在安装Python的时候一般都会自动安装pip,pip会用的比较多,没有安装的可以在百度的介绍下安装)

             1. 安装pywin32

                 打开CMD  , 输入  pip install pywin32

                 这个是安装pywin32库的语法 , 这个安装一般会成功 , 如果失败 , 请百度 。 

            2.安装pyOPENSSL

                接着上面输入 pip install pyOPENSSL

                一般不会报错

            3.安装 lxml

                输入  pip install lxml

            4.安装scrapy 

                输入 pip install scrapy

                一般会报 error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": http://landinghub.visualstudio.com/visual-cpp-build-tools

                把错误提示贴到百度 , 会有解决办法 , 最后的结果是下一个whl文件 , 然后去安装它 , 完成后再次pip install scrapy , 一般来说就不会出错了 。

    二 ,create spider

           1, create scrapy project 

                在CMD中跳到想要保存文件的目录下

                输入  scrapy startproject   yourProjectName

          2.,create spider

               进入yourProjectName文件夹

               输入scrapy genspider yourSpiderName  yourSpiderName.com

         3,最后找一个Python开发工具打开写代码就可以了,我用的是VSCODE。

              爬虫主体代码应该在spider目录下yourSpiderName.py文件里编写

              settings.py  这个文件比较重要 , 里面有很多关于爬虫的设置 , 比如设置agent等 。里面设置搜索百度,介绍会比较详细。

        4.最后就是执行这个spider

              在CMD中打开该目录输入         scrapy crawl  yourSpiderName 就可以执行这个spider了

    三, 总结

          1.基本上介绍的知识和步骤都比较基础 ,  但是只有了解这些基础后才可以向深处发展 。

          2.关于内容检索我用的是BS4这个库 , 挺好用 , 可以去官网查它的详细介绍 。 

    如有错误 , 请留言 。

    希望这篇文章能够帮助到你 : ) 

           

  • 相关阅读:
    生成15位或者4位随机数 (主要用于微信支付订单号)
    支付签名 MD5Util 排序工具类
    JVM垃圾回收(GC)
    JVM内存区域
    Java实现经典七大经典排序算法
    Java设计模式之装饰者模式
    Java设计模式之单例模式
    提前批笔试一道算法题的Java实现
    Java设计模式之工厂模式
    文件上传和下载
  • 原文地址:https://www.cnblogs.com/GaryNie/p/10407840.html
Copyright © 2011-2022 走看看