初学爬虫，关于scrapy - 走看看

zoukankan html css js c++ java

初学爬虫，关于scrapy
对于anaconda与pycharm，因为在pycharm中一直下不成功tensorflow，所以后来又下了anaconda，pycharm就可以直接使用anaconda的编译器，

一直都很正常，但是，就scrapy而言，在anaconda成功使用，但是，pycharm就不成功，一直显示不存在该包。

就只能用pycharm上修改代码，anaconda的prompt下执行代码。

1、在终端输入scrapy startproject XX，就表明在该包下创建scrapy项目XX

2、输入scrapy genspider news www.baidu.com，就是表明要爬www.baidu.com，同时在scrapy项目下的spiders新建news.py

3、终端中执行的代码为scrapy crawl news

4、如果想要爬网站，最好将项目中setting.py中

ROBOTSTXT_OBEY变为False,

为了查看更方便可以增加， LOG_LEVEL='WARNING'

为了访问网站成功，将DEFAULT_REQUEST_HEADERS中增加User-Agent

5、可以将start_urls改为真正想要访问的网站，上面创建时的网站，只是域网。

6、执行，在终端中输入scrapy crawl new

7、如果要保存在json下，则可以
author = response.xpath('//div[@id="info"]//p[1]/text()').extract() content = response.xpath('//div[@id="intro"]//p/text()').extract() yield{ "content" : content "author" : author }
8、简单的执行方法可以，建一个run.py，然后，在有该文件下，直接在终端输入python run.py
from scrapy import cmdline cmdline.execute("XX".split())
查看全文

相关阅读:
从远程库克隆（转载）
添加远程库（转载）
远程仓库（转载）
maven+hudson构建集成测试平台
 maven_基本配置
 crawler_基础之_httpclient 访问网络资源
 crawler_jsoup HTML解析器_使用选择器语法来查找元素
 oracle_job 清空冗余数据，每一分钟执行一次
 oracle_根据ID(字符型)建立分区表
 crawler_基础之_java.net.HttpURLConnection 访问网络资源

原文地址：https://www.cnblogs.com/wzwi/p/10725746.html

Copyright © 2011-2022 走看看