爬虫进阶篇（一）scrapy

zoukankan html css js c++ java

爬虫进阶篇（一）scrapy
1.本教程默认认为您已经像我一样是个半吊子爬虫程序员

2.学习爬虫首先要懂得request，json，bs4,re,xpath，pymysql，random,time,文件相关，理解网络编程基本原理，懂得如何抓取url，知道抓包，并且分析url如何获取相关数据。

3.学习scrapy首先需要安装这款框架，打开cmd 输入pip -install scrapy

4.这框架会关联很多的库，百度教程有，很麻烦的，我用的第三方工具下载的：anaconda,安装环境后通过命令行就可直接安装所有关联。

5.好了，开始进入主题，介绍一下scrapy，这款框架有url去重功能，支持高并发，快速集成使用，上手方便。

6.如何使用呢？首先：创建工程，在命令行输入 scrapy startproject 项目名称

7.创建爬虫文件：scrapy genspider 文件名要爬取网站的网址

8.文件创建好之后如何运行呢：命令运行，scrapy crawl 爬虫文件的名称（7的名称）

9.命令行比较麻烦，pytharm的运行创建文件start.py
# -*- coding: utf-8 -*- from scrapy import cmdline cmdline.execute(['scrapy','crawl','tlys'])
10.修改默认配置文件settings.py
# Obey robots.txt rules 不遵守爬虫协议 ROBOTSTXT_OBEY = False #日志级别清爽 LOG_LEVEL='WARN' #请求头信息 DEFAULT_REQUEST_HEADERS = { 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8', 'Accept-Language': 'en', 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36' } #爬虫延时，防止封号 DOWNLOAD_DELAY = 1
查看全文

相关阅读:
bash: warning: setlocale: LC_ALL: cannot change locale (en_US.UTF-8)
CentOS 7下MySQL安装配置
 CentOS 7下设置DNS服务器
 MySQL Table is marked as crashed 解决方法
 supervisor使用
 Linux更改服务器Hostname
在Linux中让打印带颜色的字
 php安装gearman扩展实现异步分步式任务
 GitLab的Gravatar头像服务不可用
 Nginx + tornado + supervisor部署

原文地址：https://www.cnblogs.com/q1359720840/p/python.html