zoukankan html css js c++ java

爬取百度贴吧楼主图片

import urllib.request
from bs4 import BeautifulSoup
import re


def validateTitle(title):
    rstr = r"[/\:*?"<>|]"  # '/  : * ? " < > |'
    new_title = re.sub(rstr, "_", title)  # 替换为下划线
    return new_title

url = "https://tieba.baidu.com/p/5407739329?see_lz=1"

request = urllib.request.Request(url)
response = urllib.request.urlopen(request)

soup = BeautifulSoup(response,'lxml')

try:
    #获取总页数
    a = soup.find(text=re.compile("回复贴"))
    total_page = a.find_next_sibling('span').string
    total_page = int(total_page)

    if total_page > 0 :
        for j in range(1,int(total_page) + 1):
            url = "https://tieba.baidu.com/p/5407739329?see_lz=1&pn="+str(j)
            request1 = urllib.request.Request(url)
            response1 = urllib.request.urlopen(request1)
            soup1 = BeautifulSoup(response1, 'lxml')
            title = soup1.title.string
            link = soup1.find_all('img',class_="BDE_Image")
            i = 1
            for li in link :
                print(li.get('src'))
                file_name = "D:/www/spider/" + validateTitle(title) + str(j) +"-"+ str(i) + ".jpg"
                print(file_name)
                urllib.request.urlretrieve(li.get('src'),file_name)
                i = i + 1
except Exception as e:
    print(e)

查看全文

相关阅读:
SQLite数据库如何存储和读取二进制数据
 JS常用代码
 获取内容第一张图片地址的函数
 我对App_Code的理解
 VS2008中Web项目的App_Code目录问题
 jQuery 浮动广告实现代码
 常用的倒计时脚本
 IE8 CSS hack
精典的网吧常用批处理收集
 ASP.NET中App_Code,App_Data等文件夹的作用

原文地址：https://www.cnblogs.com/brady-wang/p/8330155.html