zoukankan      html  css  js  c++  java
  • python_爬校花图片

    如何用python爬取校花图片并保存到本地来?

      1. 获取什么数据?

        校花名字  name

        校花所在学校 school

        校花图片的url   img_ulr  

      2.如何获取?

        打开网页http://www.xiaohuar.com/hua/ ,打开开发工具,研究每一张图片对应的html,找规律

        通过python 的scrapy框架进行批量爬取

    环境声明:

      python 3.50

      scrapy 库

    出现了哪些问题?

      1. 如何去除重复的url?

        通过对获取的url 进行md5,进行去重

      2. 如何该网站上所有的校花信息?

        先获取网页上所有的a标签,通过递归去取其他内容

      3. 如何内容永久化?

        写入文件,数据库等,该爬校花图片程序,我选择写入文件保存

    如何创建与逻辑处理?

      1. 新建爬虫项目

        scrapy startproject pa_girls  (通过命令行)

      2. spiders 目录下,建立 一个叫 、school_girls.py文件

        在school_girls.py文件中写入:

    #!/usr/bin/python3
    
    import scrapy
    from scrapy.selector import HtmlXPathSelector
    import hashlib
    # 把item模块添加到环境变量
    from items import Pa1Item
    
    
    # # 最终获取信息列表
    # school_girl = []
    
    # 获得总url,目的去重
    all_urls = {}
    
    
    class SchoolGirls(scrapy.Spider):
        name = 'school_girls'
        # 初始url,依次
        start_urls = [
            'http://www.xiaohuar.com/hua/',
        ]
    
        def parse(self, response):
            # 爬虫主体
            try:
                # 找标签
                hxs = HtmlXPathSelector(response)
                girls = Pa1Item()
                # 获取标签中指定数据
                school = hxs.select('//div[@class="img"]/div[@class="btns"]/a/text()').extract()
                name = hxs.select('//div[@class="img"]/span[@class="price"]/text()').extract()
                img_url = hxs.select('//div[@class="img"]/a/img/@src').extract()
                if school and name and img_url:
                    girls['school'] = hxs.select('//div[@class="img"]/div[@class="btns"]/a/text()').extract()
                    girls['name'] = hxs.select('//div[@class="img"]/span[@class="price"]/text()').extract()
                    girls['img_url'] = hxs.select('//div[@class="img"]/a/img/@src').extract()
                    yield girls
                else:
                    pass
                    #
                # 获取页面的所有连接
                page_urls = hxs.select('//a/@href').extract()
                page_urls.append('http://www.xiaohuar.com/hua/')
                # print(page_urls)
    
                # 进行url去重
                url_list = {}
                for url in page_urls:
                    if url.startswith('JavaScript') or url.startswith('#') or not url:
                        continue
                    else:
                        m = hashlib.md5()
                        m.update(bytes(url, encoding='utf-8'))
                        img_id = m.hexdigest()
                        # 判断是否重复url,重复就不需要再次访问
                        if img_id in all_urls:
                            continue
                        else:
                            all_urls[img_id] = url
                            url_list[img_id] = url
    
    
                # 递归查找该页面所有url
                for url in url_list.values():
                    yield scrapy.Request(url=url, callback=self.parse)
            except Exception as e:
                print(e)

      3. 在 items.py文件中写入

    import scrapy
    
    
    class Pa1Item(scrapy.Item):
        name = scrapy.Field()
        school = scrapy.Field()
        img_url = scrapy.Field()

      4. 在pipelines.py文件中写入

    import os
    import requests
    
    
    class GirlsMessage(object):
        '''获取有效数据'''
        def process_item(self, item, spider):
            for i in range(len(item['name'])):
                if item['name'][i].strip() and item['school'][i].strip() and item['img_url'][i].strip():
    
                    # 把信息写入文件
                    message_girls = item['name'][i] + '_' + item['school'][i] + ':' 
                                    + 'http://www.xiaohuar.com/' + item['img_url'][i]
                    with open('E:scrapy_newimgmessage_girls.text', 'a+', encoding='utf-8') as f_girls:
                        f_girls.write(message_girls)
    
                    # 下载图片
                    img_path = os.path.join('E:scrapy_newimg', item['name'][i] +'_' + item['school'][i] +'.jpg')
                    img_url = 'http://www.xiaohuar.com/' + item['img_url'][i]
                    try:
                        img_date = requests.get(img_url).content
                        with open(img_path, 'bw',) as f_img:
                            f_img.write(img_date)
                            f_img.flush()
                    except Exception as e:
                        print(e)
            return item

      5. 在setting文件中添加

    # 设置爬取深度
    DEPTH_LIMIT = 1
    
    # 激活pipelines中类
    ITEM_PIPELINES = {
        'pa_1.pipelines.GirlsMessage': 200,
    }

    可能会出现哪些问题?

      1. items模块导入不了,如何解决

        在spiders目录下的__init__.py文件中加入:

    import os
    import sys
    sys.path.append(os.path.dirname(os.path.dirname(os.path.abspath(__file__))))

     如何启动项目?

      scrapy crawl school_girls (需要在项目下,spiders目录下敲入命令)

  • 相关阅读:
    计算几何中的精度问题
    codeforces上分计划
    洛谷P1962 斐波那契数列 (矩阵快速幂)
    codeforces 1474 E
    codeforces 1474 C
    codeforces 1467 E
    牛客练习赛76 F phi and phi (莫比乌斯反演)
    牛客练习赛76 D 魔物消灭计划 (斯坦纳树)
    牛客练习赛76 E 牛牛数数 (线性基)
    codeforces 1467 D. Sum of Paths (dp)
  • 原文地址:https://www.cnblogs.com/2bjiujiu/p/7192208.html
Copyright © 2011-2022 走看看