爬虫笔记（四）--基于bs4

zoukankan html css js c++ java

爬虫笔记（四）--基于bs4
爬取https://www.shicimingju.com 诗词名句网站中，《三国演义》全部内容。基于bs4，而不是正则。bs4相对于正则简单一些，但是正则更加精准。准确的说是基于bs4中的beautifulsoup。

同样操作步骤：导入包requests和bs4

headers--UA伪装

text是返回的信息，也就是url中的原码。

可以print测试一下，和网页源码内容一样的，下边就需要对网页源码内容分析。
import requests import bs4 if __name__ == '__main__': headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 UBrowser/6.2.4098.3 Safari/537.36' } url = 'https://www.shicimingju.com/book/sanguoyanyi.html' text = requests.get(url = url,headers = headers).text
所有节目录的title和url都在同一个标签中， div class=“book-mulu” -----> ul -----> li，具体的章节title和url在 li-----> a 中。

所以下一步应该把所有的url和title都获取到。

很明显，可以用正则，但是为了练习bs4，选择bs4。

通过beautifulsoup实例化对象soup，beautifulsoup参数第一个是要分析的字符串，可以来自本地，可以来自requests。第二个是解释器，常用‘lxml’。

为了筛选网页源码中的需要内容，使用soup的select方法。select方法是选择器，可以通过标签、ID、类（class内容）、层选择，详细可以参考：https://blog.csdn.net/weixin_43037607/article/details/92703849

我选择通过类查找，定位到需要内容的上上级标签，再通过“>” 逐级向下查找，找到li层。也可以选择".book-mulu li"，表示跨层，不逐级跃层。

最后soup.select，返回是一个list，这个很重要。
soup = bs4.BeautifulSoup(text,'lxml') list = soup.select(".book-mulu > ul > li") #".book-mulu li" 空格表示跨层
第一次选择的是通过soup.findall()寻找 li标签，写法就是soup.findall(name = 'li')，发现返回的是list，list中除了需要的内容，还有其他没用的li标签，还需要再次筛选，所以放弃。

打印一下list前5个元素：
<li><a href="/book/sanguoyanyi/1.html">第一回·宴桃园豪杰三结义斩黄巾英雄首立功</a></li> <li><a href="/book/sanguoyanyi/2.html">第二回·张翼德怒鞭督邮何国舅谋诛宦竖</a></li> <li><a href="/book/sanguoyanyi/3.html">第三回·议温明董卓叱丁原馈金珠李肃说吕布</a></li> <li><a href="/book/sanguoyanyi/4.html">第四回·废汉帝陈留践位谋董贼孟德献刀</a></li> <li><a href="/book/sanguoyanyi/5.html">第五回·发矫诏诸镇应曹公破关兵三英战吕布</a></li>
确实是需要的内容。

下一步就是提取url和title，发现url并不是完整的url，前边少了一些内容，也要想办法补全。
url_list = [] for i in list: url_list.append('https://www.shicimingju.com'+i.a['href']) #补全url
最后就是对每一个章节的url访问，提取标签中的所需内容，储存到本地。

soup_detail.find('div',class_ = 'card bookmark-list') 用find方法找到第一个属性为“card bookmark-list” div标签，实际上也可以通过id找。

第一次写时，顺手把find写成了findall，报错。原因在于findall返回的是一个list，而find是第一个匹配的str。

find.text是将所有的，该标签以及该标签的子标签，的内容返回。还有一个是.string，只能返回该标签内容，不包含子标签。

最后用文件with open，追加 ‘a’，的方式储存成一个txt文件。
for i in url_list: text_detail = requests.get(url = i,headers = headers).text soup_detail = bs4.BeautifulSoup(text_detail, 'lxml') content = soup_detail.find('div',class_ = 'card bookmark-list').text with open('./sanguoyanyi.txt','a',encoding= 'utf-8') as fp: fp.write(content) fp.write(' ')
最后是这个样子

总结：bs4确实要比正则灵活一些，可以利用属性、方法直接定位到想要获取的内容。

当天爬的次数过多，直接把家里网络IP疯掉了，把随身的两个手机IP也疯掉了。随之又开始查如何使用代理IP。代理IP直接淘宝买，1块钱10W个，短效的，大部分都能用。http://www.9vps.com/user/default.asp 我买的是这家的。给的是一个url，直接访问，返回的就是一个IP。可以使用爬虫直接访问这个url，接受返回的消息，就可以得到IP，而且对url再次刷新，也就是再次访问，又可以获得一个新的IP。获取IP的方式是对一个固定的url进行访问，好像很多家代理都是这样弄的。

在requests中，有一个参数proxies可以设置IP，亲测是没有问题的，可以百度IP测试。

因为代理IP一般都是短效的，所以需要解决一旦ip失效，要切换ip的问题。思路已经想好，利用try except 捕获异常，重新访问获取代理ip的url，得到新的ip。设置requests中的timeout参数可以设置访问时间。

第二天想这样做，发现网站又给我解封家里的ip了。。。so，暂时放弃，但是一定可以实现。

今天想爬微信公众号的内容，但是微信公众号的url不太好获取。。。学吧- -！
查看全文

相关阅读:
一些有意思的网站
 SQLLocalDB 11.0持续报错，这是泥马德什么问题啊！！！
SystemErrorCodes
事件查看器事件ID部分说明
 Application.AddMessageFilter(this);
Provider:SSL提供程序,error:0
SQL Server的“错误：9004”
关于TortoiseSVN的一些知识
 progressBar走马灯设置
 2015广州强网杯(Misc)

原文地址：https://www.cnblogs.com/lgwdx/p/14262339.html