zoukankan      html  css  js  c++  java
  • spider_使用user-agent

    """
    1.使用第一种反反爬措施User-Agent(伪装浏览器)

    """
    import chardet
    import requests
    from urllib import request
    # 使用etree python3.5以上 ,不支持etree,
    from lxml import html



    # 1.得到所有的章节url的html网页
    # def urlsHtml():
    # # 使用user-agent代理,伪装浏览器
    # url = "https://www.biqudao.com/bqge25289/"
    # henders = {
    # "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36"
    # }
    # # 得到解析文本 不调用text的话,返回的是一个bytes(字节数组)
    # res = requests.get(url,headers=henders).text
    # print(type(res))
    #
    # return res
    #
    # # 调用函数
    # date = urlsHtml()
    # print(date)


    class BaiDu(object):
    def baidu(self):
    url = "http://www.baidu.com/"
    headers = {
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:66.0) Gecko/20100101 Firefox/66.0"
    }
    # 声明请求对象的时候 注入请求头 修改User-Agent(身份)
    req = request.Request(url,headers=headers)
    # 网页请求
    html = request.urlopen(req).read()
    print(html.decode())

    if __name__ == '__main__':
    bd = BaiDu()
    bd.baidu()
    人生苦短,我用python!
  • 相关阅读:
    ViewState与Session [转]
    HTML5和HTML4的主要区别 [转]
    委托 与 Lambda
    ArcGIS 基础4-删除数据
    ArcGIS 基础3-新建数据
    ArcGIS 基础2-编辑数据
    ArcGIS 基础1-打开地图文档并浏览
    成都地铁线路图
    矢量数据库合并工具
    ArcGIS Pro试用下载步骤
  • 原文地址:https://www.cnblogs.com/YangQingHong/p/10971584.html
Copyright © 2011-2022 走看看