zoukankan      html  css  js  c++  java
  • PYTHON 爬虫 baidu美女图片

    from urllib import request
    import re
    import os
    def main():
    #page=request.urlopen("http://image.baidu.com/search/index?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fr=&sf=1&fmq=1461834053046_R&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&itg=0&ie=utf-8&word=%E5%A4%B4%E5%83%8F#z=0&pn=&ic=0&st=-1&face=0&s=0&lm=-1" )
    # "https://image.baidu.com/search/index?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=index&fr=&hs=0&xthttps=111111&sf=1&fmq=&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&word=%E4%B8%AD%E5%9B%BD&oq=%E4%B8%AD%E5%9B%BD&rsp=-1")
    page = request.urlopen("https://image.baidu.com/search/index?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=index&fr=&hs=0&xthttps=111111&sf=1&fmq=&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&word=%E7%BE%8E%E5%A5%B3&oq=%E7%BE%8E%E5%A5%B3&rsp=-1")
    context=page.read().decode('utf-8')
    pic=re.findall("https://.*?jpg",context)
    count = 0; # 文件的起始名称为 0
    for url in pic:
    print(url)
    bytes = request.urlopen(url);
    if (url.find('.') != -1): # 2
    name =url[url.find('.', len(url) - 5):];
    f = open("D:/image/" + str(count) + name, 'wb'); # 代开一个文件,准备以二进制写入文件
    f.write(bytes.read()); # write并不是直接将数据写入文件,而是先写入内存中特定的缓冲区
    f.flush(); # 将缓冲区的数据立即写入缓冲区,并清空缓冲区
    f.close(); # 关闭文件
    count += 1;
    if __name__ == '__main__':
    main()
  • 相关阅读:
    收藏文章整理
    关于java里的SimpleDateFormat使用
    手写MQ框架(四)-使用netty改造梳理
    JDK8中的ConcurrentHashMap源码
    JDK8中的HashMap源码
    手写MQ框架(三)-客户端实现
    手写MQ框架(二)-服务端实现
    Vue.js入门
    Tomcat启动找不到项目依赖jar的解决方式
    java课堂 动手动脑2
  • 原文地址:https://www.cnblogs.com/tuozizhang/p/11086546.html
Copyright © 2011-2022 走看看