zoukankan      html  css  js  c++  java
  • 爬虫之requests请求库

    介绍

    ``` #介绍:使用requests可以模拟浏览器的请求,比起之前用到的urllib,requests模块的api更加便捷(本质就是封装了urllib3)

    注意:requests库发送请求将网页内容下载下来以后,并不会执行js代码,这需要我们自己分析目标站点然后发起新的request请求

    安装:pip3 install requests

    各种请求方式:常用的就是requests.get()和requests.post()

    import requests
    r = requests.get('https://api.github.com/login')
    r = requests.post('http://httpbin.org/post', data = {'key':'value'})
    r = requests.put('http://httpbin.org/put', data = {'key':'value'})
    r = requests.delete('http://httpbin.org/delete')
    r = requests.head('http://httpbin.org/get')
    r = requests.options('http://httpbin.org/get')

    建议在正式学习requests前,先熟悉下HTTP协议

    http://www.cnblogs.com/linhaifeng/p/6266327.html

    <h2 class="h2-title">基于GET请求</h2>
    ###1.基本请求
    

    import requests
    response=requests.get('http://dig.chouti.com/')
    print(response.text)

    ###2.带参数的GET请求(params)
    

    在请求头内将自己伪装成浏览器,否则百度不会正常返回页面内容

    import requests
    response=requests.get('https://www.baidu.com/s?wd=python&pn=1',
    headers={
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.75 Safari/537.36',
    })
    print(response.text)

    如果查询关键词是中文或者有其他特殊符号,则不得不进行url编码

    from urllib.parse import urlencode
    wd='other_word'
    encode_res=urlencode({'k':wd},encoding='utf-8')
    keyword=encode_res.split('=')[1]
    print(keyword)

    然后拼接成url

    url='https://www.baidu.com/s?wd=%s&pn=1' %keyword

    response=requests.get(url,
    headers={
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.75 Safari/537.36',
    })
    res1=response.text
    ##########################################################################

    上述操作可以用requests模块的一个params参数搞定,本质还是调用urlencode

    from urllib.parse import urlencode
    wd='other_word'
    pn=1

    response=requests.get('https://www.baidu.com/s',
    params={
    'wd':wd,
    'pn':pn
    },
    headers={
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.75 Safari/537.36',
    })
    res2=response.text

    验证结果,打开a.html与b.html页面内容一样

    with open('a.html','w',encoding='utf-8') as f:
    f.write(res1)
    with open('b.html', 'w', encoding='utf-8') as f:
    f.write(res2)

    ###3.带参数的GET请求(headers)
    

    通常我们在发送请求时都需要带上请求头,请求头是将自身伪装成浏览器的关键,常见的有用的请求头如下

    Host #请求的主机名
    Referer #请求来自哪个页面,大型网站通常都会根据该参数判断请求的来源。如果你是在浏览器的地址栏中直接输入的地址,那么就没有Referer这个请求头了
    User-Agent #与浏览器和OS相关的客户端的信息。有些网站会显示用户的系统版本和浏览器版本信息,这都是通过获取User-Agent头信息而来的
    Cookie #Cookie信息虽然包含在请求头里,但requests模块有单独的参数来处理他,headers={}内就不要放它了

    ###4.带参数的GET请求(cookies)
    

    import requests

    Cookies={ 'user_session':'wGMHFJKgDcmRIVvcA14_Wrt_sdte5ytfurtgdrtwrsytudrtsrsdzfasz',
    }

    response=requests.get('https://github.com',
    cookies=Cookies) #github对请求头没有什么限制,我们无需定制user-agent,对于其他网站可能还需要定制

    print('aaaa' in response.text) #False

    <h2 class="h2-title">基于POST请求</h2>
    ###1.介绍
    

    GET请求

    HTTP默认的请求方法就是GET
    * 没有请求体
    * 数据必须在1K之内!
    * GET请求数据会暴露在浏览器的地址栏中
    GET请求常用的操作:
    1. 在浏览器的地址栏中直接给出URL,那么就一定是GET请求
    2. 点击页面上的超链接也一定是GET请求
    3. 提交表单时,表单默认使用GET请求,但可以设置为POST

    POST请求

    (1). 数据不会出现在地址栏中
    (2). 数据的大小没有上限
    (3). 有请求体
    (4). 请求体中如果存在中文,会使用URL编码!

    !!!requests.post()用法与requests.get()完全一致,特殊的是requests.post()有一个data参数,用来存放请求体数据

    ###2.发送post请求,模拟浏览器的登录行为
    对于登录来说,应该输错用户名或密码然后分析抓包流程,用脑子想一想,输对了浏览器就跳转了,还分析个毛线,累死你也找不到包
    >案件分析:
    >一 目标站点分析
    >    浏览器输入https://github.com/login
    >    然后输入错误的账号密码,抓包
    >    发现登录行为是post提交到:https://github.com/session
    >    而且请求头包含cookie
    >    而且请求体包含:
    >        commit:Sign in
    >        utf8:✓
    >        authenticity_token:lbI8IJCwGslZS8qJPnof5e7ZkCoSoMn6jmDTsL1r/m06NLyIbw7vCrpwrFAPzHMep3Tmf/TSJVoXWrvDZaVwxQ==
    >        login:karla
    >        password:123
    >
    >二 流程分析
    >    先GET:https://github.com/login拿到初始cookie与authenticity_token
    >    返回POST:https://github.com/session, 带上初始cookie,带上请求体(authenticity_token,用户名,密码等)
    >    最后拿到登录cookie
    >    ps:如果密码时密文形式,则可以先输错账号,输对密码,然后到浏览器中拿到加密后的密码,github的密码是明文
    
    

    import requests
    import re

    第一次请求

    r1=requests.get('https://github.com/login')
    r1_cookie=r1.cookies.get_dict() #拿到初始cookie(未被授权)
    authenticity_token=re.findall(r'name="authenticity_token".?value="(.?)"',r1.text)[0] #从页面中拿到CSRF TOKEN

    第二次请求:带着初始cookie和TOKEN发送POST请求给登录页面,带上账号密码

    data={
    'commit':'Sign in',
    'utf8':'✓',
    'authenticity_token':authenticity_token,
    'login':'317828332@qq.com',
    'password':'alex3714'
    }
    r2=requests.post('https://github.com/session',
    data=data,
    cookies=r1_cookie
    )

    login_cookie=r2.cookies.get_dict()

    第三次请求:以后的登录,拿着login_cookie就可以,比如访问一些个人配置

    r3=requests.get('https://github.com/settings/emails',
    cookies=login_cookie)

    print('aaa' in r3.text) #False

    session自动帮我们保存信息
    

    import requests
    import re

    session=requests.session()

    第一次请求

    r1=session.get('https://github.com/login')
    authenticity_token=re.findall(r'name="authenticity_token".?value="(.?)"',r1.text)[0] #从页面中拿到CSRF TOKEN

    第二次请求

    data={
    'commit':'Sign in',
    'utf8':'✓',
    'authenticity_token':authenticity_token,
    'login':'317828332@qq.com',
    'password':'alex3714'
    }
    r2=session.post('https://github.com/session',
    data=data,
    )

    第三次请求

    r3=session.get('https://github.com/settings/emails')

    <h2 class="h2-title">Response响应</h2>
    

    import requests
    import re

    session=requests.session()

    第一次请求

    r1=session.get('https://github.com/login')
    authenticity_token=re.findall(r'name="authenticity_token".?value="(.?)"',r1.text)[0] #从页面中拿到CSRF TOKEN

    第二次请求

    data={
    'commit':'Sign in',
    'utf8':'✓',
    'authenticity_token':authenticity_token,
    'login':'317828332@qq.com',
    'password':'alex3714'
    }
    r2=session.post('https://github.com/session',
    data=data,
    )

    第三次请求:以后的登录,拿着login_cookie就可以,比如访问一些个人配置

    r3=requests.get('https://github.com/settings/emails',
    cookies=login_cookie)

    print('317828332@qq.com' in r3.text) #True

    ###response属性
    

    import requests
    respone=requests.get('https://sh.lianjia.com/ershoufang/')

    respone属性

    print(respone.text) # 解码后的数据,解码默认用的是utf8
    print(respone.content) # 字节流,源数据
    print(respone.status_code)
    print(respone.headers)
    print(respone.cookies)
    print(respone.cookies.get_dict()) # 以字典形式显示cookie信息
    print(respone.cookies.items())
    print(respone.url) # 最后跳转到的页面url
    print(respone.history) # 查看有没有“中转站”
    print(respone.encoding) # 自定义解码方式

    关闭:response.close()

    from contextlib import closing
    with closing(requests.get('xxx',stream=True)) as response:
    for line in response.iter_content(): # 防止一次性读入所有数据到内存把内存撑爆
    pass 

  • 相关阅读:
    Oracle重建表索引及手工收集统计信息
    VirtualBox虚拟机安装MSDOS和MINIX2.0.0双系统
    odp.net以及oracle oledb安装
    Oralce常用维护命令
    Sales_item
    IBM MQ Reason 2538(MQRC_HOST_NOT_AVAILABLE) 错误原因一例
    Unable to create the store directory. (Exception from HRESULT: 0x80131468)
    WMS函数组:13.WMS入库BAPI
    WMS函数组:12.批量入库物料移动凭证
    WMS函数组:11.交货单取金额
  • 原文地址:https://www.cnblogs.com/qiaoqianshitou/p/9627877.html
Copyright © 2011-2022 走看看