zoukankan      html  css  js  c++  java
  • Python爬虫进阶——urllib模块使用案例【淘宝】


    很多时候呢,我们都是读取本地HTML文件来进行爬虫练手,但每次都要手打不同的HTML明显耗时耗力;
    还有些小伙伴不喜欢F12,偏偏喜欢在Pycharm中查看HTML的源代码;
    ……


    难道每次都只能“复制——新建——粘贴——保存”一条龙服务吗?
    不不不,我们还有Python的第三方库——urllib
    urllib模块是模拟浏览器去访问URL地址,然后拿到服务器响应回来的数据,也就是整个HTML文件。

    代码如下:

    import urllib.request as ur
    
    # urlopen返回的是一个HTTPResponse对象,需使用read方法。
    ret = ur.urlopen('https://www.taobao.com/').read()
    print(ret)
    # 写入文件,'wb'为写入二进制文件
    with open('tb.html', 'wb') as f:
        f.write(ret)
    

    输出如下:

    在这里插入图片描述



    为我心爱的女孩~~


  • 相关阅读:
    Python基础知识
    Oracle 总结
    Linux基本命令
    测试理论
    计算机基础
    http常见的状态码,400,401,403状态码分别代表什么?
    html
    day21 包
    day20 模块引入的一些说明
    我又回来了???
  • 原文地址:https://www.cnblogs.com/WoLykos/p/12095181.html
Copyright © 2011-2022 走看看