zoukankan      html  css  js  c++  java
  • python网络爬虫&&爬取图片


    爬取学院官网数据
    from urllib.request import * #导入所有request urllib文件夹,request只是里面的一个模块
    from lxml import etree #导入lxml包
    import time
    url="http://www.llhc.edu.cn/" #爬取的地址
    # print(url)
    with urlopen(url) as html:
    text= html.read().decode('utf-8')# 对html读取、解码
    doc=etree.HTML(text) #解析html文档
    links=doc.xpath("//div[contains(@class,'pic')]/ul/li/div/img/@src")#获取数据
    # print(len(links))
    #下载资源 可以是视频音频
    for i in range(len(links)):
    # print(i)
    time.sleep(2)
    print('正在下载第%s个'%i)
    urlretrieve('http://www.llhc.edu.cn/'+links[i],'imgs/%s.jpg'%i) #将图片地址下载到指定目录
  • 相关阅读:
    构造函数
    时延(delay,latency)
    吞吐量
    带宽(band-width)
    单位
    bps
    比特(bit)
    速率
    C语言中的“>>”和“<<”
    C#中unit
  • 原文地址:https://www.cnblogs.com/aloneindefeat/p/10654886.html
Copyright © 2011-2022 走看看