zoukankan html css js c++ java

我的第一次"爬虫"

爬虫是一种快速获取服务器中数据的简便方法.它可以模拟客户端向服务器发出请求,获取服务器响应.

近期在看了博客园的一篇博客后,我自己尝试着写了一个粗略的的爬虫程序,可以实现爬取网页中的部分图片.

程序代码如下:

class SpaDer(object):
    def __init__(self):
        self.address = input('请输入网址:')

    def operation(self):
        import re
        import requests
        from bs4 import BeautifulSoup
        import urllib.request

        try:
            file = urllib.request.urlopen(self.address)
            html_code = file.read().decode('utf-8')
            soup = BeautifulSoup(html_code, features="html.parser")
            lst = soup.find_all('img')
            lst1 = re.findall(r'http.{10,100}jpg', str(lst))
            num = 0
            for i in lst1:
                with open(f'./imgs/{num}.jpg', 'wb')as f:
                    f.write(requests.get(i).content)
                    num += 1
                    print(f"已经下载了{num}张图片,还有{len(lst1) - num}张正在下载")
        except:
            pass
        其业务逻辑为:
用网页下载包ullib将网页全部代码下载到本地,然后用网页解析包bs4对网页进行解析,获取网页中的所有图片标签,再用python的正则表达式包re匹配图片地址,最后用服务器请求包requests包的get方法获取
图片的二进制流数据并将其写入本地的.jpg文件中即可.

查看全文

相关阅读:
《JS实现复制内容到剪贴板功能，可兼容所有PC浏览器，不兼容手机端》
《Web开发中块级元素与行内元素的区分》
《Web开发中让盒子居中的几种方法》
《Javascript、jQuery获取各种屏幕的宽度和高度方法》
《Web开发过滤Javascript、HTML的方法》
《移动端浏览器Touch事件判断手指滑动方向方法》
《C#微信开发系列（4）-接收 / 返回文本消息》
《C#微信开发系列（3）-获取接口调用凭据》
django rest-framework
git

原文地址：https://www.cnblogs.com/liuyuchao/p/13537676.html