zoukankan      html  css  js  c++  java
  • 校花网爬取校花照片

    """
    今天我们开始尝试,第一次学习爬虫的第一个案例,去校花网上爬取一些校花的照片

    """
    from requests_html import HTMLSession
    ##首先导入这个包

    # 然后定义一个类,将这个功能封装起来,将我们所要实现的功能,都封装到这个类中
    # 在以后的编程中,尽量将实现同一功能的函数,都封装到一个类中,这样比较方便


    class Spider(object):
    def __init__(self):
    self.session = HTMLSession() ##先 生成一个这样的对象

    def get_index_url(self):
    ##获取需要爬取的url路由
    for i in range(1, 4):
    ##分页处理,由于第一个路由没有规律,所以第一个需要特殊处理.
    ##这里我们的校花网图片只有三页,以后爬取其他网站,我们也要找到
    # 分页的url的规律,然后生成这样一个生成器,然后逐个返回
    if i == 1:
    yield 'http://www.xiaohuar.com/meinv/'
    #这是一个生成器对象 ,每次返回一个元素 下次继续从这里执行
    else:
    yield 'http://www.xiaohuar.com/meinv/index_%s' % i

    #当我们得到了要爬取图片的url之后,就要去找图片的具体的位置路径了.
    def get_img_url(self, index_url):###将页面的url传进来
    r = self.session.get(url=index_url)
    ###这个就是通过那个路由,模拟路由器向这个URL发送请求,得到那个返回的html
    for element in r.html.find('.items'): ##现在就是利用那个css选择器从那个返回的结果中筛选
    ##这里使用的是类选择器,凡是有 class = 'items'的都会被筛选出来
    img_element = element.find('img', first=True)##first=True 表示获取列表中的第一个元素
    ##然后继续在这个刚才筛选出来的结果中继续筛选,就标签选择器
    title_element = element.find('.p_title a', first=True)
    ##这个是获取图片的名称的那个a标签
    yield "http://www.xiaohuar.com" + img_element.attrs.get('src'), title_element.text
    ###将这两个标签对象返回出去,由于第一个路径不是绝对路径是一个相对路径,所以这里需要做一个拼接

    def save_img(self, img_url, img_name): ###保存图片到本地,并且命名
    img_name = img_name.replace('/', '').replace("\", "") + ".jpg"
    ###因为我们之前获取的文件名中 可能会有 或者 / 这种特殊符号,存成文件名会被识别成文件夹名称
    ##所以这里我们需要替换一下 双\ 表示转义之后的
    r = self.session.get(url=img_url) ##根据图片的资源地址 获取资源
    with open(img_name, 'wb') as f:
    f.write(r.content)
    # r.content 就是那个图片的二进制数据流
    print("%s下载完成" % img_name)

    def run(self): ##执行函数
    for index_url in self.get_index_url():
    for img_url, img_name in self.get_img_url(index_url):
    self.save_img(img_url, img_name)


    if __name__ == '__main__':
    xiaohua = Spider()
    xiaohua.run()
  • 相关阅读:
    VS Code的常用备忘
    Echarts圆环,初始化时进度条效果
    nodejs 复制文件到 另一路径下 。可以在npm库看下mv 和 mvdir 有一点区别
    nginx启动报错(1113: No mapping for the Unicode character exists in the target multi-byte code page
    Echarts dataZome 横向移动动态显示数据
    flex布局时,会有兼容性问题,所以能少用flex布局的地方还是要避免下
    python 搭建 flask 和 orator框架开发
    直播 小测试
    对高并发的理解
    MySQL 中文分词原理
  • 原文地址:https://www.cnblogs.com/1832921tongjieducn/p/11489226.html
Copyright © 2011-2022 走看看