python scrapy爬虫笔记01

zoukankan html css js c++ java

python scrapy爬虫笔记01

【python scrapy 爬虫】
    1 环境配置

　　　　win10； python3.7；
    2 爬虫project

【第三方包scrapy，re】

    【 scrapy 相关】
    【 pip安装】
          pip install Scrapy；

    【scrapy 一些相关依赖】
        pywin32
            python 的windows扩展包
        Twisted
            是用Python实现的基于事件驱动的网络引擎框架
        lxml
            lxml是python的一个解析库，支持HTML和XML的解析，支持XPath解析方式
        w3lib
            是scrapy的依赖包；实现了一下与web相关的功能
        pyopenssl

【python链接数据库】

　　第三方：MySQLdb

【新建项目(scrapy startproject) 】
    构建scrapy的文件结构：
        * 命令：scrapy startproject mySpider； - cmd（终端）中 cd 到此文件夹（空）下
        * 文件结构：
                mySpider/
                    scrapy.cfg - 项目的配置文件
                    mySpider/ - 项目的Python模块，将会从这里引用代码
                        __init__.py
                        items.py - 项目的目标文件：items.py里存放的是我们要爬取数据的字段信息
                        middlewares.py - 自己定义的中间件。
                        pipelines.py - 项目的管道文件：pipeline主要是对spiders中爬虫的返回的数据的处理，这里我们可以让写入到数据库，也可以让写入到文件等等
                        settings.py - 项目的设置文件
                       *spiders/ - 存储爬虫代码目录 - 主要编写代码的文件夹
                            __init__.py
                            ...

...................................................

查看全文

相关阅读:
基于poi的Excel文件导出(简单表头、固定模板)
maven 程序包sun.plugin.util不存在
 基于poi的Excel文件导出(固定表头、固定模板)
java.lang.NoClassDefFoundError: org/apache/poi/ss/usermodel/Workbook
String字符串转List<JavaBean>
spring项目打包，包含java下的各种配置文件
 代理客户端请求本地调试方法
 故障排除："log file sync"等待 (文档 ID 1626301.1)
package.json-属性详解
 excel 制作图加入latex

原文地址：https://www.cnblogs.com/floakss/p/11525936.html