zoukankan      html  css  js  c++  java
  • 05_Python爬蟲入門遇到的坑__總結

    1. 並不是所有的網站都能一次性的爬取成功,因為其可能做有相應的反爬取處理.

    2. 如何更直觀的看到自己的效果:由於目前我們所講的只是把網頁的整個源碼爬取下來,所以我們只要將源碼保存為html就可以看見自己爬取的效果.如果直接複製粘貼太low,而且容易出錯,不妨使用如下的代碼:

    with open("./baidu.html", mode="wb") as f:
        f.write(r.content)
    f.close()

    注釋:如果你的URL連接是一張圖,那麼你可以不用保存為html,直接保存為圖片即可--網絡爬取圖片的方式

    3. headers的三個成員:

    • User-Agent: 告訴服務器我不是機器人--我是通過瀏覽器發起的請求
    • Cookie: 告訴服務器我不是機器人--我有登錄你的網站
    • Accept: 告訴服務器我不是機器人--我能接受你的返回類型有哪些

    4. 使用request.url可以查看提交的請求,使用request.headers可以查看提交的頭部信息

    5. 獲取一個網站的接口可以通過嘗試提交關鍵字獲取

  • 相关阅读:
    有继承的C++析构函数一定要用virtual
    CUDA vs2010配置
    lambda calculus(1)
    SICP练习1.6 1.16 解答
    用函数式来实现集合
    osx guile编译安装
    skiplist poj2892
    [转]理解 pkgconfig 工具
    专业术语解释
    【转】如何学习linux设备驱动
  • 原文地址:https://www.cnblogs.com/ltozvxe/p/12866644.html
Copyright © 2011-2022 走看看