scrapy爬虫笔记(二)交互式爬取 - 走看看

zoukankan html css js c++ java

scrapy爬虫笔记(二)交互式爬取

开始网页爬取：(1)交互式爬取

　　首先，我们使用scrapy建立起爬虫的框架。在命令行中输入 scrapy shell “url”

　　如：scrapy shell “http://www.baidu.com”

　　（注意：此处一定要写清楚传输协议，否则将无法链接到对应网站，此例中为http://）

　　scrapy 会自动创建response对象，并自动将爬取下网页的源代码存入response.body中。

　　输入response.body 可看到其中的内容非常庞杂。

　　为了进一步析取网页，更精确地获取到所需要的信息，我们引入BeautifulSoup库

　　　　from bs4 import BeautifulSoup

　　　　soup = BeautifulSoup(response.body)

　　此时将response.body的内容通过BeautifulSoup的进一步解析，存入对象soup中，此时，soup已可以使用BeautifulSoup库中的方法。

　　如: print soup.find('a')打印出第一个<a>标签

　　　　print soup.findAll('p') 打印出所有的<p>标签

　　

　　这里只是简单举例，想要了解更多的BeautifulSoup方法请查看官方文档。

　　附：官方文档

　　　　BeautifulSoup　　http://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html

　　是不是很好玩呢～？

查看全文

相关阅读:
guava学习--集合2&Range
guava学习--集合1
guava学习--FluentIterable
guava学习--Supplier Suppliers
guava--Joiner、Splitter、MapJoinner、MapSplitter
python_输入一个数，判断是否是素数
 python_33_文件操作2
python_32_文件操作1
python_31_集合
 python_输出100：200内的素数

原文地址：https://www.cnblogs.com/KoalaDream/p/4465171.html

Copyright © 2011-2022 走看看