zoukankan html css js c++ java

beautifulsoup多线程爬取小说

最近在家闲着，又赶上想追一本小说，临时没有找到资源，所以打算自己爬取一下。
由于刚开始学习python，所以爬取过程有点辛苦。
最开始采用了单线程爬取，经常报错，而且由于网页响应问题，爬取的十分缓慢，所以打算采用多线程。
这个采用了笔趣阁的一个例子。

# --*-- coding : utf-8 --**--
# --*-- author : muchen --**--
import requests
from bs4 import BeautifulSoup
import threading
import os
import re
chapeterUrl = 'https://www.cnoz.org/0_1/' #小说目录页面
header = {'User-Agent': ''}#每个人的header不一样注意。
webUrl = 'https://www.cnoz.org' #小说章节共同前缀
errorUrl = [] #爬取失败的章节list
filepath = r'C:Users沐辰Desktop	est2\'#存储的地址
filename = '诡秘之主' #最终合并的章节名字
def getChapeterList():
    #获取章节地址list
    html = requests.get(chapeterUrl, headers=header, timeout=20)
    html.encoding = 'gb18030' #注意网页编码
    soup = BeautifulSoup(html.text, "html.parser")
    chapeterList = []
    chapeterListWeb = soup.select('#list > dl > dd > a')#审查元素，对应元素，右键copy select
    del chapeterListWeb[:9] #切片删除无效地址
    for chapeter in chapeterListWeb:
        chapeterList.append(chapeter['href'])
    return chapeterList
def getText(URL):
    #获取章节内容
    html = requests.get(webUrl + URL, headers=header, timeout=20)
    html.encoding = 'gbk'
    soup = BeautifulSoup(html.text, "html.parser")
    #章节名字
    name = soup.select('#wrapper > div.content_read > div > div.bookname > h1')#审查元素，对应元素，右键copy select
    for name in name:
        pageName = name.get_text()
    # 章节内容
    text = soup.select('#content')
    for text in text:
        pageText = text.get_text()
    html.close()
    return pageName, pageText
def writeText(URL):
    #把每章的内容存取下来
    try:
        name, text = getText(URL)
    except Exception as e:
        #如果获取内容失败则会把失败章节地址存入list
        #print(e) #输出错误原因
        errorUrl.append(URL)
        return
    a = URL.split(r'/')
    #这里的命名方式采用了将每个章节地址按‘/’分割后取最后一段
    with open(filepath + r'\' + a[2] + '.txt', 'w', encoding='utf-8') as f:
        f.write(name + '
')
        f.write(text)
        #print(name + " 结束")
def writrPart(partList):
    #多线程存取全部章节内容
    #防止出现超时等一些列问题，所以采用循环爬取，一次不成功会再次进入队列等待下一次
    ts = []
    global errorUrl #声明全局变量
    errorUrl = partList[:]
    while errorUrl:
        l = len(errorUrl)
        print(l,'一次')
        ts = []
        if l>=300:
            l = 300#将每次最大线程数设置为300，防止溢出，可以尝试调大数值
        print(l, '二次')
        for url in range(l):
            try:
                t = threading.Thread(target=writeText, args=(errorUrl[url],))
                # print(t)
                ts.append(t)
                t.start()
            except Exception as e:
                #如果线程打开失败，将章节地址存入list之后
                #print(e)
                errorUrl.append(url)
                continue
        #等所有进程都结束再进行下一步
        for i in ts:
            i.join()
        del errorUrl[0:l]#删除已经存取过的章节地址
        print('一次结束')
def hb():
    #将所有章节合并
    global filepath
    list = os.listdir(filepath)
    list = sorted(list, key=lambda i: int(re.match(r'(d+)', i).group()))
    with open(filepath + filename + '.txt', 'w', encoding='utf-8') as f:
        for i in list:
            filepath2 = os.path.join(filepath, i)
            print(i)
            with open(filepath2, encoding='utf-8') as ff:
                content = ff.read()
            ff.close()
            f.write(content)

if __name__ == "__main__":
    chapeterList = getChapeterList()
    del chapeterList[0:1000]
    writrPart(chapeterList)
    hb()

查看全文

相关阅读:
Linux实战教学笔记49：Zabbix监控平台3.2.4（一）搭建部署与概述
 数据库SQLITE3初识
 多功能聊天室-项目规划实现图
 多功能电子通讯录（涉及到了双向链表的使用，Linux文件编程等等）
学生信息管理系统（C语言版本）
Linux笔记-Makefile伪指令解析
 Linux笔记-vim 配置
 Linux笔记-Linux下编辑器的简介
 C/C++编码规范
 Linux笔记-Linux命令初解2

原文地址：https://www.cnblogs.com/luoxiaoyi/p/12270165.html