zoukankan      html  css  js  c++  java
  • python3的一个简单爬虫

     #coding=utf-8
    import re
    import urllib.request
    def getHtml(url):
        page = urllib.request.urlopen(url)
        html = page.read()
        html = html.decode('UTF-8')
        return html
    #Urllib 模块提供读取页面数据的接口
    #urllib.request.urlopen()方法用于打开一个url地址
    #read()方法用于读取url上的数据
    print(getHtml("http://tieba.baidu.com/p/2460150866"))
    
    def getImg(html):
        reg = r'src="(.+?.jpg)" pic_ext'
        imgre = re.compile(reg)
    #re.compile()可以把正则表达式编译成一个正则表达式对象
        imglist = re.findall(imgre, html)
    #re.findall()方法读取html中包含imgre(正则表达式)的数据
        num = 0
        for imgurl in imglist:
            urllib.request.urlretrieve(imgurl,'%s.jpg' % num)
    #urllib.request.urlretrieve()方法,直接将远程数据下载到本地
            num+=1
            if num>10:
                return num
    
    html = getHtml("http://tieba.baidu.com/p/2460150866")
    print(getImg(html))
  • 相关阅读:
    gauss消元
    POJ1229 域名匹配
    HDU3487 play with chain
    POJ1185 炮兵阵地
    POJ2411
    sgu233 little kings
    树形DP初步-真树1662
    树形DP初步-二叉树1661
    c++——string类用法
    UVa1354 ——天平难题
  • 原文地址:https://www.cnblogs.com/cc233/p/7219055.html
Copyright © 2011-2022 走看看