zoukankan      html  css  js  c++  java
  • python爬虫:使用urllib库获取数据

    def main():
        baseurl = "https://movie.douban.com/top250?start="
        #1.爬取网页
        datalist = getData(baseurl)
        savepath = ".\豆瓣电影Top250.xls"
        #3.保存数据    
        #savapath(savepath)
    
    #askURL("https://movie.douban.com/top250?start=")

    #爬取网页 def getData(baseurl): datalist = []
    for i in range(0, 10): #调用获取页面信息的函数 10次
      url = baseurl + str(i*25)
      html = askURL(url) #保存获取到的网页源码
    # 2.逐一解析数据
    #????

    return datalist #得到指定一个url的网页内容 def askURL(url): head = { #模拟浏览器头部信息,向豆瓣服务器发送消息
    "User-Agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.106 Mobile Safari/537.36"
         }            #用户代理 . 表示高速豆瓣服务器,我们是什么类型的机器/浏览器(本质上是告诉浏览器,我们可以接受什么水品的文件内容

         request = urllib.request.Request(url,headers=head)

    html = ""
         try:
      
    request = urllib.request.urlopen(request)
      html = response.read().decode("utf-8")
    print(html)
    except urllib.error.URLError as e:
      if hasattr(e,"code"):
        print(e,code)
         if hasattr(e,"reason")
           print(e,reason)

       return html




    #保存数据 data saveData(savepath) print("save.......")
     
  • 相关阅读:
    我和计算机
    十四周学习记录
    十五周个人作业
    怎样成为一个高手
    C语言第0次作业
    C语言博客作业03函数
    C博客作业01分支、顺序结构
    C语言博客作业02循环结构
    Rails后台,Firefox Addons前端,JS的AJAX调用
    Ruby 三元一次线性方程组
  • 原文地址:https://www.cnblogs.com/liweikuan/p/14728413.html
Copyright © 2011-2022 走看看