zoukankan      html  css  js  c++  java
  • 爬虫进阶篇(一)scrapy

    1.本教程默认认为您已经像我一样是个半吊子爬虫程序员

    2.学习爬虫首先要懂得request,json,bs4,re,xpath,pymysql,random,time,文件相关,理解网络编程基本原理,懂得如何抓取url,知道抓包,并且分析url如何获取相关数据。

    3.学习scrapy首先需要安装这款框架,打开cmd 输入pip -install scrapy

    4.这框架会关联很多的库,百度教程有,很麻烦的,我用的第三方工具下载的:anaconda,安装环境后通过命令行就可直接安装所有关联。

    5.好了,开始进入主题,介绍一下scrapy,这款框架有url去重功能,支持高并发,快速集成使用,上手方便。

    6.如何使用呢? 首先:创建工程,在命令行输入 scrapy startproject 项目名称

    7.创建爬虫文件:scrapy genspider 文件名  要爬取网站的网址

    8.文件创建好之后如何运行呢:命令运行,scrapy crawl 爬虫文件的名称(7的名称)

    9.命令行比较麻烦,pytharm的运行创建文件start.py

    # -*- coding: utf-8 -*-
    from scrapy import cmdline
    cmdline.execute(['scrapy','crawl','tlys'])

    10.修改默认配置文件settings.py

    # Obey robots.txt rules 不遵守爬虫协议
    ROBOTSTXT_OBEY = False
    #日志级别 清爽
    LOG_LEVEL='WARN'
    #请求头信息
    DEFAULT_REQUEST_HEADERS = {
      'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
      'Accept-Language': 'en',
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'
    }
    
    #爬虫延时,防止封号
    DOWNLOAD_DELAY = 1
  • 相关阅读:
    Google Code 项目代码托管网站上 Git 版本控制系统使用简明教程
    C/C++预定义宏
    使用 Raspberry Pi 远程桌面
    Vim 中将 tab 自动转换成空格
    DR模式搭建LVS负载均衡
    NAT模式LVS搭建负载均衡集群
    php扩展memached安装
    raw_input与input的区别
    keepalived+lvs搭建高可用负载均衡集群
    使用keepalived搭建nginx高可用
  • 原文地址:https://www.cnblogs.com/q1359720840/p/python.html
Copyright © 2011-2022 走看看