zoukankan      html  css  js  c++  java
  • python scrapy爬虫笔记01

    【python scrapy 爬虫】
        1 环境配置

        win10; python3.7;
        2 爬虫project

    【第三方包scrapy,re】   

        【 scrapy 相关】
        【 pip安装 】
              pip install Scrapy;

        【scrapy 一些相关依赖】
            pywin32
                python 的windows扩展包
            Twisted
                是用Python实现的基于事件驱动的网络引擎框架
            lxml
                lxml是python的一个解析库,支持HTML和XML的解析,支持XPath解析方式
            w3lib
                是scrapy的依赖包;实现了一下与web相关的功能
            pyopenssl

    【python链接数据库】

      第三方:MySQLdb



    【 新建项目(scrapy startproject) 】
        构建scrapy的文件结构:
            * 命令:scrapy startproject mySpider; - cmd(终端)中 cd 到此文件夹(空)下
            * 文件结构:
                    mySpider/
                        scrapy.cfg - 项目的配置文件
                        mySpider/ -  项目的Python模块,将会从这里引用代码
                            __init__.py
                            items.py -  项目的目标文件:items.py里存放的是我们要爬取数据的字段信息
                            middlewares.py  - 自己定义的中间件。
                            pipelines.py - 项目的管道文件:pipeline主要是对spiders中爬虫的返回的数据的处理,这里我们可以让写入到数据库,也可以让写入到文件等等
                            settings.py -  项目的设置文件
                           *spiders/ - 存储爬虫代码目录  - 主要编写代码的文件夹
                                __init__.py
                                ...

    ...................................................
  • 相关阅读:
    软件测试基础5 ——系统测试之软件质量
    软件测试基础4 ——系统测试之测试方法
    软件测试基础3 ——系统测试之系统测试类型
    软件测试基础2 ——系统测试之测试对象与测试级别
    软件测试基础1 ——系统测试之测试基础
    《软件测试方法和技术》-读书笔记(三)
    《软件测试方法和技术》-读书笔记(二)软件缺陷的产生
    《软件测试方法和技术》-读书笔记(一)
    bug的一些事
    开发版速达-提供在线帐套配置功能
  • 原文地址:https://www.cnblogs.com/floakss/p/11525936.html
Copyright © 2011-2022 走看看