我们实验的网站很简单,就是一个关于猫的图片的网站:http://placekitten.com
代码如下:
import urllib.request respond = urllib.request.urlopen("http://placekitten.com.s3.amazonaws.com/homepage-samples/200/287.jpg") cat_img = respond.read() f = open('cat_200_300.jpg','wb') f.write(cat_img)
结果便会在代码存放的路径上生成这个jpg文件了,可爱的小猫咪。
这个例子很简单,以后会有更加厉害的爬虫。
/*************************************************************************/
稍微较大的爬取一些有相关关联的jpg格式的图片
import urllib.request #http://placekitten.com.s3.amazonaws.com/homepage-samples/200/140.jpg img = [287,140,139,286,138] for num in img: cont = urllib.request.urlopen("http://placekitten.com.s3.amazonaws.com/homepage-samples/200/"+str(num)+".jpg") picture = cont.read() f = open('C:/Users/lenovo/Desktop/cat_picture/cat_img'+str(num)+'.jpg','wb') f.write(picture)
这样就在我指定的文件夹里面生成了我爬取的jpg图片了