zoukankan      html  css  js  c++  java
  • 自学Python七 爬虫实战一

      此文承接上文,让我们写一个简简单单的爬虫,循序而渐进不是吗?此次进行的练习是爬取前5页什么值得买网站中的白菜价包邮信息。包括名称,价格,推荐人,时间。

      我们所需要做的工作:1.确定URL并获得页面代码。 2.用正则匹配每件商品我们所需要的内容 3.打印信息  我还是直接上代码吧,具体步骤看注释就好啦!(代码会引用HttpClient.py,可以参考之前的SmartQQ协议一文)!

     1 # -*- coding: utf-8 -*-
     2 import re,time,os
     3 from HttpClient import HttpClient
     4 class Smzdm(HttpClient):
     5     def __init__(self):
     6         self.__pageIndex = 1
     7         self.__Url = "http://faxian.smzdm.com/9kuai9/p" 
     8 
     9     #正则得到每页商品信息
    10     def __getAllGoods(self,pageIndex):
    11         realurl = self.__Url + str(pageIndex)
    12         pageCode = self.Get(realurl)
    13         pattern = re.compile('<h2 .*?itemName"><a.*?<span .*?black">(.*?)</span><span .*?red">(.*?)</span></a></h2>.*?'+
    14                              '<div .*?itemUserInfo">.*?<a .*?<span .*?rankTitle">(.*?)</span>.*?<span .*?time">(.*?)</span>',re.S)
    15         items = re.findall(pattern,pageCode.decode("utf-8"))
    16         for item in items:
    17             print item[0],item[1],item[2],item[3]
    18 
    19     def start(self):
    20         print("正在读取前五页白菜价包邮,请稍等...")
    21         for i in range(1,6):
    22             print i
    23             self.__getAllGoods(i)
    24 
    25 pc = Smzdm()
    26 pc.start()

      执行结果如下:

      是不是感觉,代码怎么这么少,这就搞定了?YES!

      稍微解释一下思路,一般类似于这种网站都是页面+页号构成url。所以定义一个基础url,根据传入的页号构造一个真实的url。通过urllib2模块访问页面得到页面代码,通过构造正则pattern,调用re.findall()函数找到当前页面所有的信息,然后打印出来。一个功能智障,代码简单的爬虫就造好了,easy的会了default的当然就水到渠成了,接下来你可以去试试糗事百科的段子,百度贴吧的帖子,网易新闻的留言等等!另外,我的环境为2.7.10,python3以下需要注意编码问题,到处都是坑!

  • 相关阅读:
    「酷客多」关注:马化腾公开演讲,透露2017年春节前会推出“小程序”
    微信小程序购物商城系统开发系列-目录结构
    微信小程序购物商城系统开发系列-工具篇
    上海闪酷成为京东商城第一批独立软件开发商(ISV)
    【FFMPEG】关于硬解码和软解码
    Git 别名配置
    【Linux】扩展阿里云数据盘分区和文件系统
    Python实现MQTT接收订阅数据
    【Linux】Devops的一些运维工具
    【Linux】YUM Repositories for CentOS, RHEL & Fedora Systems
  • 原文地址:https://www.cnblogs.com/jixin/p/5139804.html
Copyright © 2011-2022 走看看