zoukankan      html  css  js  c++  java
  • selenium&phantomjs实战--漫话爬取

    为什么直接保存当前网页,而不是找到所有漫话链接,再有针对性的保存图片?

    因为防盗链的原因,当直接保存漫话链接图片时,只能保存到防盗链的图片。

    #!/usr/bin/env python
    # _*_ coding: utf-8 _*_
    # __author__ ='kong'
    
    from selenium import webdriver
    import os
    import time
    
    class GetCartoon(object):
        def __init__(self):
            self.startUrl = "http://www.1kkk.com/ch1-406302/"
            self.browser = self.getBrowser()
            self.saveCartoon()
    
        def getBrowser(self):
            browser = webdriver.PhantomJS()
            try:
                browser.get(self.startUrl)
                browser.implicitly_wait(5)
                print "url get ok"
            except:
                print "url get failed"
            return browser
    
        def createDir(self,fileName):
            if os.path.exists(fileName):
                print "dir is exists"
            else:
                os.makedirs(fileName)
                print "dir create ok"
    
        def saveCartoon(self):
            fileName = self.browser.title.split("_")[0]
            self.createDir(fileName)
            os.chdir(fileName)
            # 总共26页
            sumPage = int(self.browser.find_element_by_xpath("//font[@class='zf40']/span[2]").text)
            i = 1
            while i <= sumPage:
                imgName = str(i)+'.png'
                # html页面保存成图片
                self.bowser.get_screenshot_as_file(imgName)
                i += 1
                # 点击下一页按扭
                NextTag = self.browser.find_element_by_id("next")
                NextTag.click()
                # 3秒后执行保存图片操作
                time.sleep(3)
            self.browser.close()
    
    if __name__ == '__main__':
        GC = GetCartoon()
    

      

  • 相关阅读:
    Golang Struct 声明和使用
    docker 中ulimit设置理解
    微服务架构引入的问题及解决方案
    Jenkins 集成Sonar代码质量扫描
    Jenkins和gitlab集成自动构建
    初识微服务架构
    jenkins 集成钉钉机器人通知
    Go 新起点
    shell中的(),{}几种语法用法
    二进制日志配置和运维管理
  • 原文地址:https://www.cnblogs.com/kongzhagen/p/6285065.html
Copyright © 2011-2022 走看看