Scrapy爬取遇到的一点点问题

zoukankan html css js c++ java

Scrapy爬取遇到的一点点问题

学了大概一个月Scrapy,自己写了些东东,遇到很多问题,这几天心情也不大好,小媳妇人也不舒服,休假了,自己研究了很久,有些眉目了

利用scrapy 框架爬取慕课网的一些信息

步骤一：新建项目

scrapy startproject muke

进入muke

scrapy genspider mukewang imooc.com #mukewang 为爬虫名，imooc.com 是域名，爬虫爬取的范围

步骤二：编写ITEM，定义需要爬取的字段，此处只定义两个字段吧（初学）

步骤三：编写Spider主题，暂时先只爬取title，有些名词用的比较low，莫怪

以上基本的东西就写完了

步骤四：运行爬虫 scrapy crwal mukewang 查看结果爬取结果较多就不一一列举了

期间遇到一点点问题问题，就是我的爬取结果只限制在第一页，收到一个DEUBG信息：

2018-09-27 12:07:09 [scrapy.spidermiddlewares.offsite] DEBUG: Filtered offsite request to 'www.imooc.com': <GET http://www.imooc.com/course/list?page=2>

2018-09-27 12:07:09 [scrapy.core.engine] INFO: Closing spider (finished)

2018-09-27 12:07:09 [scrapy.statscollectors] INFO: Dumping Scrapy stats:

原来是我的allowed_domains出现问题将allowed_domains=['www.imooc.com/']改为allowed_domains=['imooc.com']即可实现全部爬取

本次算是初学爬虫，自己写了点东西，但是远远没有达到要求，比如储存到数据库，路漫漫其修远兮，吾将上下而求索！！

路漫漫其修远兮，吾将迷途而知返

查看全文

相关阅读:
2018-10-8-Win10-使用-GHO-安装出现-UWP-软件打开闪退-应用商店无法安装软件
 2019-4-29-WPF-如何判断一个控件在滚动条的里面是用户可见
 2018-9-29-Roslyn-通过-Nuget-引用源代码-在-VS-智能提示正常但是无法编译
 2019-8-31-dotnet-判断程序当前使用管理员运行降低权使用普通权限运行
 2019-8-31-dotnet-非泛型-类型-System.Collections.IEnumerable-不能与类型实参一起使用
 2019-3-16-win10-uwp-在-ItemsPanelTemplate-里面通过样式绑定-Orientation-显示方向
 2018-10-29-微软-Tech-Summit-技术暨生态大会课程-·-基于-Roslyn-打造高性能预编译框架...
2019-7-27-解决从旧格式的-csproj-迁移到新格式的-csproj-格式-AssemblyInfo-文件值重复问题...
about
2018-2-13-win10-uwp-上传Nuget-让别人用我们的库

原文地址：https://www.cnblogs.com/python2687806834/p/9713287.html