zoukankan html css js c++ java

python爬虫：使用urllib库获取数据

def main():
    baseurl = "https://movie.douban.com/top250?start="
    #1.爬取网页
    datalist = getData(baseurl)
    savepath = ".\豆瓣电影Top250.xls"
    #3.保存数据    
    #savapath(savepath)

    #askURL("https://movie.douban.com/top250?start=")


#爬取网页
def getData(baseurl):
    datalist = []  
    for i in range(0, 10):            #调用获取页面信息的函数 10次
    　　url = baseurl + str(i*25)   
    　　html = askURL(url)         #保存获取到的网页源码
        # 2.逐一解析数据 
        #????

     return datalist


#得到指定一个url的网页内容
def askURL(url):
     head = {              #模拟浏览器头部信息，向豆瓣服务器发送消息
        "User-Agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.106 Mobile Safari/537.36"

     }            #用户代理 . 表示高速豆瓣服务器，我们是什么类型的机器/浏览器(本质上是告诉浏览器，我们可以接受什么水品的文件内容

     request = urllib.request.Request(url,headers=head)
   
     html = ""

     try:
     　　request = urllib.request.urlopen(request)
     　　html = response.read().decode("utf-8")
        print(html)
     except urllib.error.URLError as e:
     　　if hasattr(e,"code"):
     　　　　print(e,code)
　　　　　if hasattr(e,"reason")
　　　　　　　print(e,reason)

　　　return html


     
     


#保存数据
data saveData(savepath)
    print("save.......")

查看全文

相关阅读:
POJ 3923 Ugly Windows（——考察思维缜密性的模拟题）
POJ 3829 Seat taking up is tough(——只是题目很长的模拟)
练习json读取中文
 关于调接口和腾讯云cos方面。
JavaScript如何处理解析JSON数据详解
 js获取url参数值的两种方式
 修改Host，配置域名访问
 Atom设置震撼的编辑效果
 atom总结
 用node.js可以开启静态服务不需要借助apache 或者xampl

原文地址：https://www.cnblogs.com/liweikuan/p/14728413.html