zoukankan      html  css  js  c++  java
  • spider_使用parse,urlencode,爬取豆瓣电影(get请求拼接url)

    """
    使用urllib库 爬取豆瓣电影 ajax(异步刷新)

    """

    from urllib import request,parse
    import chardet
    import json

    # 定义豆瓣的url
    url = "https://movie.douban.com/j/chart/top_list?"
    headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:67.0) Gecko/20100101 Firefox/67.0"}

    # 定义一个参数字典
    patamter ={
    # 电影类型
    "type":"24",
    # 好评率
    "interval_id":"100:90",
    # 开始
    "start":"0",
    # 总共加载多少部
    "limit":"20"
    }
    # 将参数转化为可拼接到url中的字符串格式 得到完整的url
    url = url+parse.urlencode(patamter)
    # 将user-agent 注入到请求中
    req=request.Request(url,headers=headers)
    # 获取网页,进行指定的编码格式 去解码 得到json格式 字符串文件
    res = request.urlopen(req).read().decode("utf-8")
    # print(res)
    # print(type(res))

    # 将字符串转为json格式文件 返回的是一个列表, 列表里面包含的都是字典
    jsonObj=json.loads(res)
    print(jsonObj)
    print(type(jsonObj))

    # 提取需求信息
    for data in jsonObj:
    print(data)
    # 字典
    print(type(data))
    # 提取电影名
    print(data['title'])
    人生苦短,我用python!
  • 相关阅读:
    主流 Blog 程序集锦
    网站地图怎么做?dedecms网站地图制作方法听语音
    WOW.js – 让页面滚动更有趣
    使用网站地图六大好处
    ps快捷键
    网站地图起什么作用
    一步一步CCNA之四:路由器端口配置
    HP Linux Imaging and Printing
    雁渡寒潭四大
    spss
  • 原文地址:https://www.cnblogs.com/YangQingHong/p/10978160.html
Copyright © 2011-2022 走看看