zoukankan      html  css  js  c++  java
  • urllib2模块初体验———豆瓣读书页面下载小爬虫

    我也是根据:http://blog.csdn.net/pleasecallmewhy/article/details/8927832 ,来写出豆瓣读书的爬虫,废话不说直接上代码:

     1 #!/usr/bin/env python
     2 #-*-coding=utf-8-*-
     3 
     4 import urllib2
     5 
     6 #获取豆瓣读书的分页的页面
     7 def doubanbook(url,begin,end):
     8     for i in range(begin,end+1):
     9         filename = str(i) + '.html'
    10         print 'Downloading ' + str(i) + '....... Filename is ' + filename
    11         #打开文件对象
    12         f = open('/home/dzhwen/python文件/Homework/urllib/douban/doubanbook'+filename,'w+')
    13         m = urllib2.urlopen(url + str((i-1)*20)).read()
    14         f.write(m)
    15         f.close()
    16 
    17 if __name__ == '__main__':
    18     url = 'http://book.douban.com/tag/编程?start='
    19     begin = input('请输入你抓取的页数开始为:')
    20     end = input('请输入你抓取的页数结束为:')
    21     doubanbook(url,begin,end)

    我在页面上显示20的原因是由于豆瓣的页面上的url消息有一定的规律。关键还要看具体情况进行调整。该程序还可以用作抓取百度贴吧等等。

  • 相关阅读:
    Jq操作表格
    最新web 2.0 配色 (一)
    Jqtable edit
    Jq公告渐隐弹出
    Jq模拟最大化最小化关闭
    JqtoggleClass
    Jq弹出公告
    jquery左右拉效果
    最新web 2.0 配色 (二)
    ZenCoding各个工具安装
  • 原文地址:https://www.cnblogs.com/sysu-blackbear/p/3630465.html
Copyright © 2011-2022 走看看