zoukankan html css js c++ java

python网络爬虫&&爬取图片


爬取学院官网数据
from urllib.request import * #导入所有request   urllib文件夹，request只是里面的一个模块
from lxml import etree  #导入lxml包
import time
url="http://www.llhc.edu.cn/"  #爬取的地址
# print(url)
with urlopen(url) as html:
    text= html.read().decode('utf-8')# 对html读取、解码
doc=etree.HTML(text)   #解析html文档
links=doc.xpath("//div[contains(@class,'pic')]/ul/li/div/img/@src")#获取数据
# print(len(links))
#下载资源 可以是视频音频
for i in range(len(links)):
    # print(i)
    time.sleep(2)
    print('正在下载第%s个'%i)
    urlretrieve('http://www.llhc.edu.cn/'+links[i],'imgs/%s.jpg'%i) #将图片地址下载到指定目录

查看全文

相关阅读:
遇到的函数知识
 网络编程
 python中的并发编程
 Django contenttypes组件
 同源策略定义及跨域解决方案
 Django Rest framework
RESTful API
python 给对象添加方法
 python 装饰器（复杂一点的）
android动态替换Fragment向下传递数据

原文地址：https://www.cnblogs.com/aloneindefeat/p/10654886.html