zoukankan      html  css  js  c++  java
  • Python爬虫

    python爬去百度主页代码

    import requests
    r=requests.get("https://www.baidu.com/") print(r.status_code) r.encoding = 'utf-8' print(r.text)

    Response对象属性

    response库异常函数

    爬虫通用代码框架:

    import requests
    
    def getHTMLText(url):
        try:
            r=requests.get(url,timeout=30)
            r.raise_for_status() #如果状态不是200,触发HTTPError异常
            r.encoding='utf-8'
            return r.text
        except:
            return "产生异常"
    
    if __name__=="__main__":
        url="http://www.baidu.com"
        print(getHTMLText(url))

    Requests 七个主要方法

    URL是http协议存取资源的internet路径,一个URL对应一个数据资源

     http协议对资源的操作

     网络爬虫尺寸

    在爬去网页或者网站时用遵守robots协议

  • 相关阅读:
    bzoj1098 1301
    bzoj3237
    bzoj3170
    bzoj4008
    一些题解
    bzoj4028
    bzoj3196
    redis学习
    quartz学习
    电商618 压测、优化、降级预案
  • 原文地址:https://www.cnblogs.com/liberate20/p/10765571.html
Copyright © 2011-2022 走看看