zoukankan      html  css  js  c++  java
  • python爬取商品信息

    老严要爬某网购网站的商品信息,正好我最近在学python,就一起写了一个简单的爬虫程序。

    需求:某网的商品信息,包括商品名,市场价和售价

    工具:python2.7.8,urllib2,re

    #coding = utf-8
    
    import urllib2
    import re
    
    path = "aaa.txt"
    f = open(path, 'w+')
    
    for i in range(4980, 4991):
        print i
        
        # get webpage content
        url = "http://*" + str(i) + "*"
        page = urllib2.urlopen(url).read()
        
        # Regular matching
        matchTitle = re.search(r'<dt>(.*?)</dt>', page)
        matchMarketPrice = re.search(r'<del.*?>(.*?)</del>', page)
        matchCurrentPrice = re.search(r'<b>(.*?)</b>', page)
    
        # save result
        if matchTitle and matchMarketPrice and matchCurrentPrice:
            f.write(matchTitle.group(1) + '	' + matchMarketPrice.group(1) + '	' + matchCurrentPrice.group(1) + '
    ')
    f.close()
    

      部分结果显示:

    欧莱雅奇焕光感粉嫩透亮修颜霜30ml ¥120.00 109.00
    欧莱雅复颜洁面乳125ml	¥130.00	105.00
    欧莱雅复颜抗皱紧致滋润眼霜15ml	¥210.00	179.00
    欧莱雅复颜清漾柔肤水175ml	¥160.00	138.00
    

      

  • 相关阅读:
    sklearn
    Scrapy
    正则表达式re
    BeautifulSoup
    requests
    Python网络爬虫与信息提取
    Matplotlib
    Pandas
    NumPy
    制约大数据处理能力的几个问题
  • 原文地址:https://www.cnblogs.com/Rosanna/p/4125508.html
Copyright © 2011-2022 走看看