scrapy安装（Linux环境）及爬取百度 - 走看看

zoukankan html css js c++ java

scrapy安装（Linux环境）及爬取百度

scrapy安装（Linux环境）及爬取百度

安装scrapy

1、在终端中激活虚拟环境；注意：

（1）       虚拟环境之前已建立，可以在pycharm中事先建好

（2）       得与虚拟环境文件夹在同一目录下才能找到并激活虚拟环境

命令：source activate {虚拟环境名称}

激活后路径最前面有(虚拟环境名称)的显示

2、安装scrapy

pip install Scrapy



3、安装后查看

scrapy version

显示版本号则说明安装成功。

爬取百度

1、在终端中激活虚拟环境

source activate spider

2、进入/spider下目录/exec

cd /spider/exec

3、在exec目录下创建scrapy项目e14

scrapy startproject e14

4、在自动生成的目录/e14/spider下，新建baiduspider.py，写BaiduSpider类

5、在终端中先进入e14目录，再爬百度

cd e14

scrapy crawl baidu

此时爬不到内容，但是能看到response_status_count/200，即访问成功。

6、打开settings.py文件，将ROBOTSTXT_OBEY参数由True改为False，即：

ROBOTSTXT_OBEY = False

7、再次执行scrapy crawl baidu，即可取得内容。

查看全文

相关阅读:
Go语言基础之指针
 Go语言基础之流程控制
 Go语言基础之函数
 Go语言基础之map
Go语言基础之数组切片
 windows 10中使用命令行关掉占用指定端口的程序
 在window 10查看一下指定命令行工具所在的位置
 关闭掉mysql 8和mysql5.7的密码验证插件validate_password
mysql 添加数据如果数据存在就更新ON DUPLICATE KEY UPDATE和REPLACE INTO
使用MySQL yum源安装MySQL

原文地址：https://www.cnblogs.com/djlbolgs/p/12506361.html

Copyright © 2011-2022 走看看