zoukankan      html  css  js  c++  java
  • data_analysis 第一课

    1.anaconda的安装与使用

    在官网下载anaconda的客户端,因为python有2和3之分,所以有两个版本可以供选择,由于该课程使用2作为开发工具,选择anaconda2下载安装。

    安装好之后,可以使用 conda update conda 来进行对anaconda进行更新。

    2.启动jupyter notebook

    在anaconda2的命令窗口上使用cd命令进入放“.ipynb”文件的目录,然后使用 jupyter notebook xx.ipynb 命令启动jupyter。(使用tab键可以补全)

    3.如何使用jupyter notebook

    jupyter notebook 作为课程教学之用非常方便,可以编辑文档,可以运行代码,掌握jupyter notebook 的使用方法和快捷键可以帮你事半功倍。

    jupyter notebook 的快捷键,在界面中,按“H”键可以查看有哪些快捷键。

    4.打开csv文件,进行数据处理

    在处理csv文件时,我们需要进行模块导入,使用unicodecsv模块

    然后定义一个reader函数,读取csv文件,例如:

    def reader(file_csv):
      with open(file_csv,'rb') as f:
        reader = unicodecsv.DictReader(f)
        return list(reader)
    enrollments = reader('enrollments.csv')

    之后对读取的数据进行预处理:

    from datetime import datetime as dt

    # 将字符串格式的时间转为 Python datetime 类型的时间。
    # 如果没有时间字符串传入,返回 None

    def parse_date(date):
      if date == '':
        return None
      else:
        return dt.strptime(date, '%Y-%m-%d')

    # 将可能是空字符串或字符串类型的数据转为 整型 或 None。

    def parse_maybe_int(i):
      if i == '':
        return None
      else:
        return int(i)

    # 清理 enrollments 表格中的数据类型

    for enrollment in enrollments:
      enrollment['cancel_date'] = parse_date(enrollment['cancel_date'])
      enrollment['days_to_cancel'] = parse_maybe_int(enrollment['days_to_cancel'])
      enrollment['is_canceled'] = enrollment['is_canceled'] == 'True'
      enrollment['is_udacity'] = enrollment['is_udacity'] == 'True'
      enrollment['join_date'] = parse_date(enrollment['join_date'])

  • 相关阅读:
    【Java集合】-- LinkedList源码解析
    【Java集合】--ConcurrentHashMap源码解析
    【Java集合】--ConcurrentHashMap源码解析
    【Java集合】-- CopyOnWriteArrayList源码解析
    【Java集合】-- CopyOnWriteArrayList源码解析
    【Java集合】-- ArrayList源码解析
    【Java集合】-- ArrayList源码解析
    【Java集合】-- HashMap源码解析
    工厂模式和抽象工厂模式
    常见的排序算法整理
  • 原文地址:https://www.cnblogs.com/Jerry-home/p/7262793.html
Copyright © 2011-2022 走看看