zoukankan      html  css  js  c++  java
  • spider_使用parse,urlencode,爬取豆瓣电影(get请求拼接url)

    """
    使用urllib库 爬取豆瓣电影 ajax(异步刷新)

    """

    from urllib import request,parse
    import chardet
    import json

    # 定义豆瓣的url
    url = "https://movie.douban.com/j/chart/top_list?"
    headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:67.0) Gecko/20100101 Firefox/67.0"}

    # 定义一个参数字典
    patamter ={
    # 电影类型
    "type":"24",
    # 好评率
    "interval_id":"100:90",
    # 开始
    "start":"0",
    # 总共加载多少部
    "limit":"20"
    }
    # 将参数转化为可拼接到url中的字符串格式 得到完整的url
    url = url+parse.urlencode(patamter)
    # 将user-agent 注入到请求中
    req=request.Request(url,headers=headers)
    # 获取网页,进行指定的编码格式 去解码 得到json格式 字符串文件
    res = request.urlopen(req).read().decode("utf-8")
    # print(res)
    # print(type(res))

    # 将字符串转为json格式文件 返回的是一个列表, 列表里面包含的都是字典
    jsonObj=json.loads(res)
    print(jsonObj)
    print(type(jsonObj))

    # 提取需求信息
    for data in jsonObj:
    print(data)
    # 字典
    print(type(data))
    # 提取电影名
    print(data['title'])
    人生苦短,我用python!
  • 相关阅读:
    eclipse javaWeb项目如何引入jar包
    Unity3D 批量图片资源导入设置
    WaitForTargetFPS
    自适应分辨率
    UnityException: Texture is not readable
    Unity bundle的制作和使用
    Unity3D之Assetbundle
    Unity使用外部版本控制SVN
    AssetBundle机制相关资料收集
    Assetbundle的杂七杂八
  • 原文地址:https://www.cnblogs.com/YangQingHong/p/10978160.html
Copyright © 2011-2022 走看看