zoukankan      html  css  js  c++  java
  • pandas 解析json文件为DataFrame的三种方式以及其灵活度和效率的比较

    我所了解到的,将json串解析为DataFrame的方式主要有一样三种:

    1. 利用pandas自带的read_json直接解析字符串
    2. 利用json的loads和pandas的json_normalize进行解析
    3. 利用json的loads和pandas的DataFrame直接构造(这个过程需要手动修改loads得到的字典格式)
     
    实验代码如下:
    [python] view plain copy
     
    1. # -*- coding: UTF-8 -*-  
    2. from pandas.io.json import json_normalize  
    3. import pandas as pd  
    4. import json  
    5. import time  
    6.   
    7. # 读入数据  
    8. data_str = open('data.json').read()  
    9. print data_str  
    10.   
    11. # 测试json_normalize  
    12. start_time = time.time()  
    13. for i in range(0, 300):  
    14.     data_list = json.loads(data_str)  
    15.     df = json_normalize(data_list)  
    16. end_time = time.time()  
    17. print end_time - start_time  
    18.   
    19. # 测试自己构造  
    20. start_time = time.time()  
    21. for i in range(0, 300):  
    22.     data_list = json.loads(data_str)  
    23.     data = [[d['timestamp'], d['value']] for d in data_list]  
    24.     df = pd.DataFrame(data, columns=['timestamp', 'value'])  
    25. end_time = time.time()  
    26. print end_time - start_time  
    27.   
    28. #  测试read_json  
    29. start_time = time.time()  
    30. for i in range(0, 300):  
    31.     df = pd.read_json(data_str, orient='records')  
    32. end_time = time.time()  
    33. print end_time - start_time  
     
     
    实验结果如下:
    可以看出由于read_json直接对字符串进行的解析,其效率是最高的,但是其对JSON串的要求也是最高的,需要满足其规定的格式才能够读取。其支持的格式可以在pandas的官网点击打开链接可以看到。然而json_normalize是解析json串构造的字典的,其灵活性比read_json要高很多。但是令人意外的是,其效率还不如我自己解析来得快(自己解析时使用列表解析的功能比普通的for循环快很多)。当然最灵活的还是自己解析,可以在构造DataFrame之前进行一些简单的数据处理。

     read_json功能很强大,可以参考 http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_json.html?highlight=read_json#pandas.read_json

  • 相关阅读:
    1041. 困于环中的机器人
    95. 不同的二叉搜索树 II
    LeetCode945:使数组唯一的最小增量
    LeetCode:925.长按键入
    LeetCode:926. 将字符串翻转到单调递增
    InteliJ 安装PlantUML插件
    CodeBlock换肤
    正则表达式验证手机号和座机号
    C#中使用反射遍历一个对象属性和值以及百分数
    c#中@的用法
  • 原文地址:https://www.cnblogs.com/oraser/p/8034883.html
Copyright © 2011-2022 走看看