scrapy安装及基本使用 - 走看看

zoukankan html css js c++ java

scrapy安装及基本使用

前端html, css, js 相关知识

数据库运用

http协议的了解

前后台联动

蜘蛛中间件、下载中间件

下载中间件的地方可以写各种反爬的策略

1、使用pip安装， pip3 install scrapy

2、下载whl文件 , http://www.lfd.uci.edu/~gohlke/pythonlibs

进入这个网站去下载lxml pip install “文件名”

基本的爬虫，包括spider, pipeline

item管理主要负责处理从网页中抽取出来的item，主要任务是清洗、验证和存储数据

scrapy startproject hello_world

按照cmd中的提示信息，继续往下操作

在spider中，入口是 start_urls 查到要爬去的网站的url

name属性决定了去启动哪个爬虫

allow_domain决定了只爬取哪个域名的

函数请求的结果自动调用默认的parse函数（解析函数）

或者可以重写start_requests方法，定义自己的启动方法

如何启动一个爬虫，应该创建一个文件

from scrapy import cmdline

cmdline.execute("scrapy crawl 爬虫名字".split())

scrapy的选择器的用法：

css, xpath , re , pyquery

beautifulsoup , lxml, css ,xpath , re , pyquery

response.xpath().extract_first()

from pyquery import PyQuery

scrapy 的项目管道

item pipeline

查看全文

相关阅读:
android:id="@android:id/tabhost" 、android:id="@+id/llRoot" 、android:id="@id/llRoot" 之间的区别
 android:ellipsize的使用
 PopupWindow为什么要设置setBackgroundDrawable(new BitmapDrawable());
android中LayoutInflater的3种使用以及getSystemService的API
context 的理解
 Android 中this、getContext()、getApplicationContext()、getApplication()、getBaseContext() 之间的区别
 android Matrix 使用
 public private protected frientdly 作用域
 pyinstaller参数介绍以及总结
 MongoDB高级查询详细

原文地址：https://www.cnblogs.com/yingchen/p/8505193.html

Copyright © 2011-2022 走看看