zoukankan      html  css  js  c++  java
  • [Python爬虫] 之二十六:Selenium +phantomjs 利用 pyquery抓取智能电视网站图片信息

    一、介绍

        本例子用Selenium +phantomjs爬取智能电视网站(http://www.tvhome.com/news/)的资讯信息,输入给定关键字抓取图片信息。

        给定关键字:数字;融合;电视

       

     

      二、网站信息

        

     

      三、数据抓取

        针对上面的网站信息,来进行抓取

        1、首先抓取信息列表

          抓取代码:Elements = doc('div[class="main_left fl"]').find('div[class="content"]').find('ul').find('li')

        2、抓取图片

          抓取代码:imgurl = element('a').find('img').attr('src');

               self.down_picture(imgurl)

       

      四、完整代码

     def down_picture(self, imgurl):
            """
            下载图片到本地
            :param imgurl: 图片url
            """
            # http://img.tvhomeimg.com/uploads/2017/06/23/144910c41de4781ccfe9435e736ef72b.jpg
            if len(imgurl)>0:
                fileName = ''
                if imgurl.rfind('/')>0:
                    fileName = imgurl[imgurl.rfind('/') + 1:]
                    u = urllib.urlopen(imgurl)
                    data = u.read()
    
                    strpath = os.path.dirname(os.getcwd())+'picture'
                    with open(os.path.join(strpath, fileName), 'wb') as f:
                        f.write(data)
     
  • 相关阅读:
    观察者模式股票提醒
    中介者模式虚拟聊天室
    模板方法模式数据库的连接
    职责链模式财务审批
    期末总结
    软件需求分析考试
    tomcat启动极其慢的解决方法困扰我一年多的问题终于解决
    状态模式银行账户
    解释器模式
    动态加载JS文件提升访问网站速度
  • 原文地址:https://www.cnblogs.com/shaosks/p/7069078.html
Copyright © 2011-2022 走看看