zoukankan html css js c++ java

自学Python七爬虫实战一

　　此文承接上文，让我们写一个简简单单的爬虫，循序而渐进不是吗？此次进行的练习是爬取前5页什么值得买网站中的白菜价包邮信息。包括名称，价格，推荐人，时间。

　　我们所需要做的工作：1.确定URL并获得页面代码。 2.用正则匹配每件商品我们所需要的内容 3.打印信息我还是直接上代码吧，具体步骤看注释就好啦！（代码会引用HttpClient.py，可以参考之前的SmartQQ协议一文）！

 1 # -*- coding: utf-8 -*-
 2 import re,time,os
 3 from HttpClient import HttpClient
 4 class Smzdm(HttpClient):
 5     def __init__(self):
 6         self.__pageIndex = 1
 7         self.__Url = "http://faxian.smzdm.com/9kuai9/p" 
 8 
 9     #正则得到每页商品信息
10     def __getAllGoods(self,pageIndex):
11         realurl = self.__Url + str(pageIndex)
12         pageCode = self.Get(realurl)
13         pattern = re.compile('<h2 .*?itemName"><a.*?<span .*?black">(.*?)</span><span .*?red">(.*?)</span></a></h2>.*?'+
14                              '<div .*?itemUserInfo">.*?<a .*?<span .*?rankTitle">(.*?)</span>.*?<span .*?time">(.*?)</span>',re.S)
15         items = re.findall(pattern,pageCode.decode("utf-8"))
16         for item in items:
17             print item[0],item[1],item[2],item[3]
18 
19     def start(self):
20         print("正在读取前五页白菜价包邮，请稍等...")
21         for i in range(1,6):
22             print i
23             self.__getAllGoods(i)
24 
25 pc = Smzdm()
26 pc.start()

　　执行结果如下：

　　是不是感觉，代码怎么这么少，这就搞定了？YES!

　　稍微解释一下思路，一般类似于这种网站都是页面+页号构成url。所以定义一个基础url，根据传入的页号构造一个真实的url。通过urllib2模块访问页面得到页面代码，通过构造正则pattern，调用re.findall()函数找到当前页面所有的信息，然后打印出来。一个功能智障，代码简单的爬虫就造好了，easy的会了default的当然就水到渠成了，接下来你可以去试试糗事百科的段子，百度贴吧的帖子，网易新闻的留言等等！另外，我的环境为2.7.10，python3以下需要注意编码问题，到处都是坑！

查看全文

相关阅读:
【转】Java操作CSV文件导入导出
 【转】Java压缩和解压文件工具类ZipUtil
Python之multiprocessing.Pool（创建多个子进程）
Openstack平台虚拟机疏散失败提示(pymysql.err.OperationalError) (2013, 'Lost connection to MySQL server during query')问题
 kubernetes部署redis主从高可用集群
 Ceph性能测试
 python日志模块
 kubernetes删除pod，pod一直处于Terminating状态
 python执行提示“ImportError: No module named OpenSSL.crypto”
二进制部署kubernetes集群_kube-apiserver提示"watch chan error: etcdserver: mvcc: required revision has been compacted'

原文地址：https://www.cnblogs.com/jixin/p/5139804.html

自学Python七 爬虫实战一

自学Python七爬虫实战一