Scrapy入门 - 走看看

zoukankan html css js c++ java

Scrapy入门
Scrapy入门

1.安装scrapy
- linux环境下直接执行命令：
  
  pip install scrapy
- 安装完成之后直接在控制台输入：scrapy，如不报错，则安装成功
　　　　　　　　

2.创建项目
- scrapy startproject <project_name>
  
  这个命令可以在任何文件夹下运行，执行完毕之后会在当前目录下创建一个你的项目的名字的文件夹
  
  该文件夹的目录结构：
  
  project_name
  
  project_name
  
  sriders
  
  __init__.py
  
  __init__.py
  
  items.py
  
  middlewares.py
  
  piplines.py
  
  settings.py
  
  #scrapy.cfg //它是scrapy项目的配置文件，其内定义了项目文件的配置文件路径、部署相关信息等内容。
  
  #items.py //它定义了items的数据结构，所有的items都可以在这里定义。
  
  #middlewares.py //它定义了spider middlewares和download middlewares的实现。
  
  #piplines.py //它定义item pipline的实现，所有的item pipline的实现都可以放在这里。
  
  #settings.py //定义项目的全局配置
　　　　

3.创建spider
- 在scrapy.cfg的同级目录下执行命令：
  
  scrapy genspider <spider_name> <project_start_url>
  
  执行完毕之后会在spiders的目录下生成一个<spider_name>.py的文件
　　　　

4.实际创建
1. scrapy startproject books
2. cd books
3. scrapy genspider quanshu quanshuwang.com
4. cd books/scrapy
5. cat quanshu.py
6. 1 # -*- coding: utf-8 -*- 2 import scrapy 3 4 5 class QuanshuSpider(scrapy.Spider): 6 name = 'quanshu' 7 allowed_domains = ['quanshuwang.com'] 8 start_urls = ['http://quanshuwang.com/'] 9 10 def parse(self, response): 11 pass
　　　该文件里面有个<project_name>的类，该类继承自scrapy.Spider

　　　　name：该爬虫的名字，有且唯一，用于区别不同的爬虫和启动项目

　　　　allowed_domains：爬虫允许访问的域名

　　　　start_url：爬虫其实的url

　　　　parse方法：爬虫启动的时候，会默认调用parse，该方法主要用于对网页的解析。该方法有一个response参数，该参数为访问的url的结果对象。可以在parse方法中print(dir(response))来了解该对象的方法和属性。

5.启动爬虫

　　scrapy crawl <project_name>[类的name属性]
查看全文

相关阅读:
maven的pom.xml文件详细说明
 python 给视频添加马赛克
 cv2.VideoCapture 图像旋转问题
 三分钟理解知识蒸馏
 深度学习、机器学习常见概念及理解（持续更新）
python用直方图规定化实现图像风格转换
 1分钟理解人体姿态估计与行为识别
 数据清洗要点
 3分钟理解NMS非极大值抑制
 python用pandas遍历csv文件

原文地址：https://www.cnblogs.com/ivy-blogs/p/10884047.html