zoukankan      html  css  js  c++  java
  • spider_使用parse,urlencode,爬取豆瓣电影(get请求拼接url)

    """
    使用urllib库 爬取豆瓣电影 ajax(异步刷新)

    """

    from urllib import request,parse
    import chardet
    import json

    # 定义豆瓣的url
    url = "https://movie.douban.com/j/chart/top_list?"
    headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:67.0) Gecko/20100101 Firefox/67.0"}

    # 定义一个参数字典
    patamter ={
    # 电影类型
    "type":"24",
    # 好评率
    "interval_id":"100:90",
    # 开始
    "start":"0",
    # 总共加载多少部
    "limit":"20"
    }
    # 将参数转化为可拼接到url中的字符串格式 得到完整的url
    url = url+parse.urlencode(patamter)
    # 将user-agent 注入到请求中
    req=request.Request(url,headers=headers)
    # 获取网页,进行指定的编码格式 去解码 得到json格式 字符串文件
    res = request.urlopen(req).read().decode("utf-8")
    # print(res)
    # print(type(res))

    # 将字符串转为json格式文件 返回的是一个列表, 列表里面包含的都是字典
    jsonObj=json.loads(res)
    print(jsonObj)
    print(type(jsonObj))

    # 提取需求信息
    for data in jsonObj:
    print(data)
    # 字典
    print(type(data))
    # 提取电影名
    print(data['title'])
    人生苦短,我用python!
  • 相关阅读:
    215. Kth Largest Element in an Array
    214. Shortest Palindrome
    213. House Robber II
    212. Word Search II
    210 Course ScheduleII
    209. Minimum Size Subarray Sum
    208. Implement Trie (Prefix Tree)
    207. Course Schedule
    206. Reverse Linked List
    sql 开发经验
  • 原文地址:https://www.cnblogs.com/YangQingHong/p/10978160.html
Copyright © 2011-2022 走看看