zoukankan      html  css  js  c++  java
  • 【项目01】商铺数据加载及存储

    【项目01】 商铺数据加载及存储

    目标:

    1、成功读取“商铺数据.csv”文件 2、解析数据,存成列表字典格式:[{'var1':value1,'var2':value2,'var3':values,...},...,{}] 3、数据清洗: ① comment,price两个字段清洗成数字 ② 清除字段缺失的数据 ③ commentlist 拆分成三个字段,并且清洗成数字 4、结果存为.pkl文件

     

    数据读取

    f = open('C:/Users/83759/Python数据分析师微专业_项目资料/商铺数据.csv','r',encoding='utf8')
    for i in f.readlines()[:20]:
    print(i.split(','))
    #print(i.split(',')[-1].split('           '))
    f.seek(0)

    清洗数据

    #创建comment、price、commentlist清洗函数

    #函数式编程

    def fcm(s):
      if '条' in s:
          return int(s.split(' ')[0])
      else:
          return '缺失数据'

    #comment清洗函数:用空格分段,选取结果list的第一个为点评数,并且转化为整型

    def fpr(s):
      if '¥' in s:
          return float(s.split('¥')[-1])
      else:
          return '缺失数据'

    #print清洗函数:用¥分段,选取结果list的最后一个为人均价格,并且转化为浮点型

    def fcl(s):
      if len(s) == 3:
          quality = float(s[0][2:])
          environment = float(s[1][2:])
          service = float(s[2][2:])
          return [quality,environment,service]
      else:
          return '缺失数据'

    #commentlist清洗函数:用空格分段,分别清洗出质量、环境及服务数据,并转化为浮点型

    for i in f.readlines()[:10]:
      cl = fcl(i.split(',')[-1].split('           '))
      print(cl)

    结果

    image-20200306192157269

     

    pkl文件,csv文件,tsv文件 区别

    (1)pkl文件:

    pkl文件是python里面保存文件的一种格式,如果直接打开会显示一堆序列化的东西。

    正确的打开方式如下:

    import cPickle as pickle  
    f = open('path')  
    data = pickle.load(f)  
    print (data)   #show file  

    1).pkl文件是python中的一种存储方式。

      2)该存储方式,可以将python项目过程中用到的一些暂时变量、或者需要提取、暂存的字符串、列表、字典等数据保存起来。

      3)保存方式就是保存到创建的.pkl文件里面。

      4)然后需要使用的时候再 open,load。

    (2)csv文件:逗号分隔符文件,可以使用excel打开

    (3)tsv文件:制表符Tab分隔文件,可以使用excel打开

  • 相关阅读:
    IOS开发中Xcode常用插件安装与管理(转)
    IOS开发中摇一摇是怎么实现的
    IOS中APP开发常用的一些接口
    数据结构——不相交集(并查集)
    数据结构——(最小)堆(完全二叉树)
    JDK1.7 中的HashMap源码分析
    Java中hashCode()方法以及HashMap()中hash()方法
    《Java多线程核心技术》读书摘要
    Java for LeetCode 237 Delete Node in a Linked List
    Java类变量、实例变量的初始化顺序
  • 原文地址:https://www.cnblogs.com/Lilwhat/p/12431065.html
Copyright © 2011-2022 走看看