zoukankan      html  css  js  c++  java
  • 大数据应用技术课程实践--选题与实践方案

    一、选题与意义

    1.Hadoop平台应用

    2.Kaggle分析数据项目

    简要说明理由与意义。

    答:选择Kaggle分析数据项目

      项目:房价预测(House Prices)

      理由与意义:由于第一题Hadoop环境搭建困难重重,加上硬件设备需要500G+8G以上,故选择第二题。选择房价预测的目的是房价这方面是跟我们生活比较符合,有很高的项目价值。

    二、实践方案

    简要说明理由。

    答:使用annconda环境进行编码

    三、实践任务分解

    根据所选的题目,明确实验步骤,分解任务到每天。

    第一、二天(6.23,6.24):

      数据导入与预处理:

    1. 模块导入
    2. 数据导入
    3. 特征处理
    4. 异常处理等 

    第三、四天(6,24-6,25):

      特征处理:

    1. 数据集连接
    2. 缺失数据分析
    3. 数据相关性
    4. 重新划分数据集等

    第五------八天(6.26-6.30):

      建模:

    1. 交叉验证
    2. 建立基础模型

      模型训练与测试:

    1. 定义评估模型
    2. 模型训练、预测、评估
    3. 生成结果文件

     第九天(7.1):

      1、整理实验报告及相关文档

      2、完成课程实践报告

    四、实践计划

    按任务分解撰写计划表,每天按计划表开展工作。

    第天根据实际情况更新计划表,有必要时调整。

    1.

    大数据平台安装软件:

    链接:https://pan.baidu.com/s/1lZM6BkZ6XoRE3uwepsQ_5A
    提取码:ao1m

    虚拟机镜像文件:

    链接:https://pan.baidu.com/s/1e0qak_9Uymn_R1HmSu5ZLw  
    提取码:q0lt

    2.

    https://www.kaggle.com/competitions

    说明:

    • 个人项目,不要求组队,确实需要组队的说明理由。
    • 边操作边记录;
    • 每天完成当天文档;
    • 最后综合成课程实践报告。
    课程作业
  • 相关阅读:
    PHP简单工厂模式、工厂方法模式和抽象工厂模式
    PHP的HashTable实现
    理解Hash
    PHP中Array的hash函数实现
    R-FCN论文讲解(转载链接)
    目标检测的发展历程
    K-means算法
    pytorch0.4.1安装
    反卷积(deconvolution)
    faster-rcnn自己的理解总结(包括它的前世今身R-CNN和fast R-CNN)
  • 原文地址:https://www.cnblogs.com/lingcode/p/13183106.html
Copyright © 2011-2022 走看看