zoukankan      html  css  js  c++  java
  • 爬取字段和图片 spider_getModelInformation

    import urllib
    import urllib2
    import re

    class Spider:

    def getPage(self,pageIndex):
      url="http://mm.taobao.com/json/request_top_list.htm?page="+str(pageIndex)
      request=urllib2.Request(url)
      response=urllib2.urlopen(request)
      return response.read().decode('gbk')

    def getContents(self,pageIndex):
      page=self.getPage(pageIndex)
      pattern=re.compile('<a class="lady-name" href="(.*?)".*?>(.*?)</a>.*?<strong>(.*?)</strong>.*?<span>(.*?)</span>',re.S)
      items=re.findall(pattern,page)
      for item in items:
      print "Personal Address",item[0]
      print "Name",item[1],"Age",item[2],"city",item[3]

    def start(self,start,end):
      for i in range(start,end+1):
      print "This is NO.",i,"model"
      self.getContents(i)

    spider=Spider()
    spider.start(1,5)

  • 相关阅读:
    MYSQL ALTER
    初入园子
    java常用基础(一)
    C语言类型转换
    C++用EGE简单实现别踩白块游戏
    CPP常用库函数以及STL
    至我的新博客
    工厂模式
    pl/sql developer 编码格式设置
    单例模式
  • 原文地址:https://www.cnblogs.com/sushome/p/6144812.html
Copyright © 2011-2022 走看看