zoukankan      html  css  js  c++  java
  • spider_使用user-agent

    """
    1.使用第一种反反爬措施User-Agent(伪装浏览器)

    """
    import chardet
    import requests
    from urllib import request
    # 使用etree python3.5以上 ,不支持etree,
    from lxml import html



    # 1.得到所有的章节url的html网页
    # def urlsHtml():
    # # 使用user-agent代理,伪装浏览器
    # url = "https://www.biqudao.com/bqge25289/"
    # henders = {
    # "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36"
    # }
    # # 得到解析文本 不调用text的话,返回的是一个bytes(字节数组)
    # res = requests.get(url,headers=henders).text
    # print(type(res))
    #
    # return res
    #
    # # 调用函数
    # date = urlsHtml()
    # print(date)


    class BaiDu(object):
    def baidu(self):
    url = "http://www.baidu.com/"
    headers = {
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:66.0) Gecko/20100101 Firefox/66.0"
    }
    # 声明请求对象的时候 注入请求头 修改User-Agent(身份)
    req = request.Request(url,headers=headers)
    # 网页请求
    html = request.urlopen(req).read()
    print(html.decode())

    if __name__ == '__main__':
    bd = BaiDu()
    bd.baidu()
    人生苦短,我用python!
  • 相关阅读:
    p1229
    2017.01.21
    P1136 超车 归并排序 求逆序对个数
    2017年寒假计划
    递归一题总结(OJ P1117倒牛奶)
    原来scanf读入字符串还能这样..
    2016NOIP总结
    公式推♂倒题
    kmp+DP x 子串相关的计数问题
    XXXXXXXX不会太多吧?
  • 原文地址:https://www.cnblogs.com/YangQingHong/p/10971584.html
Copyright © 2011-2022 走看看