zoukankan      html  css  js  c++  java
  • scrapy安装及基本使用

    前端html, css, js 相关知识

    数据库运用

    http协议的了解

    前后台联动

     蜘蛛中间件、下载中间件

    下载中间件的地方可以写各种反爬的策略

    1、使用pip安装, pip3 install scrapy 

    2、下载whl文件 , http://www.lfd.uci.edu/~gohlke/pythonlibs

    进入这个网站去下载lxml pip install “文件名”

    基本的爬虫,包括spider, pipeline 

    item管理主要负责处理从网页中抽取出来的item, 主要任务是清洗、验证和存储数据

    scrapy startproject   hello_world

    按照cmd中的提示信息,继续往下操作

    在spider中,入口是 start_urls 查到要爬去的网站的url 

    name属性决定了去启动哪个爬虫

    allow_domain决定了只爬取哪个域名的

    函数请求的结果自动调用默认的parse函数(解析函数)

    或者可以重写start_requests方法,定义自己的启动方法

    如何启动一个爬虫,应该创建一个文件

    from scrapy import cmdline

    cmdline.execute("scrapy crawl  爬虫名字".split())

    scrapy的选择器的用法:

    css, xpath , re , pyquery 

    beautifulsoup , lxml,  css ,xpath , re , pyquery 

    response.xpath().extract_first()

    from pyquery import PyQuery

    scrapy  的项目管道

     item pipeline

  • 相关阅读:
    shell:定时任务crontab
    shell:采集进程的cpu和内存利用率_随手记1
    临时记录
    python:numpy库和matplotlib库
    python:urllib:HTTPResponse对象的用法
    美国亚马逊图片打不开
    互联网协议
    range 和 xrange
    国内服务器的端口开放问题
    Mac上设置Chrome跨域
  • 原文地址:https://www.cnblogs.com/yingchen/p/8505193.html
Copyright © 2011-2022 走看看