zoukankan html css js c++ java

笔趣阁小说-圣墟-爬虫源代码

import re
import requests
from bs4 import BeautifulSoup

url = 'http://www.biquge6.com/19_19336/'
r = requests.get(url)
b = BeautifulSoup(r.content.decode('gbk'))
h = b.find_all(href = re.compile('/19_19336/'))       # 正则匹配属性值带有/104_104216/的href标签，并返回正则模式对象h

list_len = len(h)      # 剔除掉最新12章节
print('开始下载：')
i = 1
for each in h:
    print('正在下载第' + str(i) + '章，共' + str(list_len) + '章')
    url1 = url + each.get('href')[10:]                  # ,获取其中一个超链接地址第12位后的链接地址
    re = requests.get(url1)                             # 每章节完整链接地址
    bs = BeautifulSoup(re.content.decode('gbk'))        # 获取章节数据
    t = bs.find_all('h1')[0].text[1:]            # find_all获取章节文章标题，[0].text[1:]截取标题内容

    content = bs.find_all(id = 'content')[0].text         # 数据清洗，清除html的多余标签
    content = content.replace('xa0'*8,' ').replace('    ', '').replace('

', '
')
    content = t + '

' + content +'


'          # 将标题和内容整合
    with open('C:\UsersDELLDesktop大数据应用开发圣墟.doc', 'a', encoding='utf-8') as f:
        f.write(content)
    i += 1
print('下载完成!')

===左手举个栗子，右手举个锤子===

-----------------------------------------------------转载需备注博主名和原创网址！！！------------------------------------------------------

查看全文

相关阅读:
【手把手】JavaWeb 入门级项目实战 -- 文章发布系统（第三节）
【手把手】JavaWeb 入门级项目实战 -- 文章发布系统（第二节）
【手把手】JavaWeb 入门级项目实战
 用大白话聊聊JavaSE -- 自定义注解入门
 用大白话聊聊JavaSE -- 如何理解Java Bean（一）
从硬件工程师转到纯软件开发，回顾那些岁月
 TessorFlow学习之序言
 《图像处理实例》之二值图像分割
 《图像处理实例》之 Voronoi 图
 《图像处理实例》之疏密程度统计

原文地址：https://www.cnblogs.com/Luoters/p/11801539.html