zoukankan      html  css  js  c++  java
  • scrapy安装及基本使用

    前端html, css, js 相关知识

    数据库运用

    http协议的了解

    前后台联动

     蜘蛛中间件、下载中间件

    下载中间件的地方可以写各种反爬的策略

    1、使用pip安装, pip3 install scrapy 

    2、下载whl文件 , http://www.lfd.uci.edu/~gohlke/pythonlibs

    进入这个网站去下载lxml pip install “文件名”

    基本的爬虫,包括spider, pipeline 

    item管理主要负责处理从网页中抽取出来的item, 主要任务是清洗、验证和存储数据

    scrapy startproject   hello_world

    按照cmd中的提示信息,继续往下操作

    在spider中,入口是 start_urls 查到要爬去的网站的url 

    name属性决定了去启动哪个爬虫

    allow_domain决定了只爬取哪个域名的

    函数请求的结果自动调用默认的parse函数(解析函数)

    或者可以重写start_requests方法,定义自己的启动方法

    如何启动一个爬虫,应该创建一个文件

    from scrapy import cmdline

    cmdline.execute("scrapy crawl  爬虫名字".split())

    scrapy的选择器的用法:

    css, xpath , re , pyquery 

    beautifulsoup , lxml,  css ,xpath , re , pyquery 

    response.xpath().extract_first()

    from pyquery import PyQuery

    scrapy  的项目管道

     item pipeline

  • 相关阅读:
    【原】 POJ 1012 Joseph 约瑟夫 解题报告
    【原】 POJ 1001 Exponentiation 大整数乘法 解题报告
    POJ——1517
    毕业了,校园里走走看看——华中科技大学
    毕业答辩后
    CV编程常用的获取鼠标圈定区域的方法
    送走了GB
    POJ——2546
    奥巴马在YY21#524
    POJ——3517
  • 原文地址:https://www.cnblogs.com/yingchen/p/8505193.html
Copyright © 2011-2022 走看看