zoukankan html css js c++ java

Scrapy框架

1 scrapy框架初始

1，scrapy框架的介绍

scrapy是基于Twisted异步框架的爬虫框架, scrapy也是异步的.
# 优点:
1.爬取效率高
2.组件化, 适合开发大型的爬虫

2 安装与配置

lxml, pywin32, wheel, Twisted, scrapy
# 本地安装
pip install Twisted....whl

3，项目的创建与目录结构

# django项目和APP的创建
django-admin startproject projectname
python manage.py startapp appname
python manage.py runserver
python manage.py runserver IP:port
# vue项目的创建
vue init webpack projectname
cnpm install 
cnpm install axios --save
npm run dev
# scrapy
scrapy startproject projectname
cd 项目名
scrapy genspider pw baidu.com
scrapy crawl pw
scrapy crawl pw --nolog

目录结果

项目文件夹
    项目名文件夹
        spiders文件夹
            爬虫文件: 定义了爬取的行为和解析的方法
        items.py: 定义爬取的字段
        pipelines.py: 管道
        middlewares.py: 中间件
        settings.py: 项目配置
    project.cfg: 配置文件--> 部署有关

五的核心组件与数据流

1.五大核心组件:爬虫, 引擎,  调度器,  下载器, 管道

查看全文

相关阅读:
C#线程同步lock,Monitor,Mutex,同步事件和等待句柄（1）
多线程 C#解决方案小结
 10款交互设计原型开发工具
 创建自定义配置节
 禁用外键 oracle
GUIDESIGNSTUDIO3中文帮助(1)欢迎使用 GUI Design Studio 3.0
大数据量的数据库设计思考
 gui design studio 3 中文帮助（2）获取帮助
 NHibernate之旅(24)：探索NHibernate二级缓存(下)（转）
客户端原型GUI Design Studio

原文地址：https://www.cnblogs.com/nbzyf/p/13600499.html