zoukankan      html  css  js  c++  java
  • 爬虫获取,用户,电影,简单

    # requests模块使用,基于urllib
    # urllib python内置的模块,也是模拟发送http请求的库
    # 模拟http请求,get,post,put,delete....

    import requests

    # res = requests.get('https://www.baidu.com')
    # res.encoding="utf-8"
    # print(res.text)
    # 获取网站全部文本信息


    # params放入的是获取数据的条件
    # headers该网站获取的需要验证的请求参数,才能访问到该有的数据,一般不知道有什么参数的网站,不知道放什么那么就都放,
    # 网址后面的shihi百度特有的可看百度网站
    # params判断条件要先看原网站是怎么搜索的在添加搜索条件wd就是本来百度的条件头,值你搜什么写什么 详情自己看百度然后搜索
    # res = requests.get('https://www.keke234.com/',
    # params={"md":"egon老师",
    # "pn":1},
    # headers={
    # "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36"
    # }
    #
    # )
    #
    # res.encoding="utf-8"
    # print(res.text)
    # with open("a.html","w")as f:
    # f.write(res.text)
    # 模拟登录
    # headers = {
    # 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.75 Safari/537.36',
    # 'Referer': 'http://www.aa7a.cn/user.php?&ref=http%3A%2F%2Fwww.aa7a.cn%2F',
    # }
    # res = requests.post("http://www.aa7a.cn/user.php",
    # headers=headers,
    # data={
    # "username": "812548387@qq.com",
    # "password": "qweqwe",
    # 'captcha': 'xp7z',
    # 'remember': 1,
    # 'ref': 'http://www.aa7a.cn/',
    # 'act': 'act_login'
    # })
    # cookie = res.cookies.get_dict()
    # res2 = requests.get(
    # 'http://www.aa7a.cn/',
    # headers=headers,
    # cookies=cookie, )
    # if '812548387@qq.com' in res2.text:
    # print("登录成功")
    # else:
    # print("没有登录")


    import re
    res = requests.get('https://www.pearvideo.com/category_loading.jsp?reqType=5&categoryId=1&start=0')
    reg = ' <a href="(.*?)" class="vervideo-lilink actplay">'

    #通过查看视频连接得知该视频连接方式就是https://www.pearvideo.com/加上我们所获取到的文件对象内的值
    obj = re.findall(reg,res.text)
    for i in obj:
    url = 'https://www.pearvideo.com/'+i
    res1 = requests.get(url)
    obj1 = re.findall('srcUrl="(.*?)"',res1.text)
    name = obj1[0].rsplit('/',1)[1]#获取取该视频的名字

    res2 = requests.get(obj1[0])
    #iter_content将数据变成二进制,for循环中这个,不是for 循环直接contenr
    with open(name,"wb") as f:
    for i in res2.iter_content():
    f.write(i)


  • 相关阅读:
    4111130工作总结
    js enumerations 01
    有角度地事件解读,有品质地视觉呈现。《视界》
    Mule 入门之:环境搭建
    Date 对象用于处理日期和时间
    JS脚本,时间判断问题
    丈夫道(zhuan)
    查看IP连接netstat
    二代支付简介
    对付网页无法复制的最简单绝招 ( 转)
  • 原文地址:https://www.cnblogs.com/yangxinpython/p/11930273.html
Copyright © 2011-2022 走看看