书接上回，继续获取各链接内的小说内容 - 走看看

zoukankan html css js c++ java

书接上回，继续获取各链接内的小说内容

requests下载

好了，现在开始下载。我们在前面是用requests下载的，那么现在一样还是用这种方法

我们现在有了每个章节的网页代码，所以只需要重复之前的操作，对下载的文本数据进行清除

这个地方需要把exit()写上，意思是让循环一次就停下来

需要写在print()后面

问题来了，匹配字段怎么找呢？

我们需要打开第一章节，chrome浏览器里按F12，检测网页源代码

去找一下我们所需要的文字字段

看看有什么唯一的，这里可用ctrl+f 来进行查找是否唯一

你可以注意到‘2008年，4月5日’是我们想要的，所以就需要我们在前面找

这里有个很特殊的字段<div id="content">

又查找了一下，发现是唯一的，所以开头找好了，结尾也是这样

而这里我们需要用replace替换方法，把特殊的符号替换成空，如果还有其他的符号也要自己替换。

爬取成功，进行下载

我们不能每次都这样爬取，所以要把小说保存在我们之前建的文件里面

完成

查看全文

相关阅读:
数梦工场：新思维、新技术下的互联网+政务
 计算成就价值_数据实现梦想——达科在DT时代转型历程的分享
 AliSQL开源功能特性
 mysql 索引的使用
 sql经典面试题
 数据库理论知识点
 sql语句面试练习
 数据库范式的选择使用
 sql常用语句
 数据库范式

原文地址：https://www.cnblogs.com/oldfish123/p/12002801.html

Copyright © 2011-2022 走看看