zoukankan      html  css  js  c++  java
  • 大数据应用技术课程实践--选题与实践方案

    一、选题与意义

    1.Hadoop平台应用

    2.Kaggle分析数据项目

    简要说明理由与意义。

    选题:Kaggle分析数据项目--泰坦尼克号-从灾难中学习机器

    https://www.kaggle.com/c/titanic

    理由:电脑配置缘故,进行hadoop平台应用太费时间,故选择第二题,

       由于期末其他大作业缘故,时间不太充裕,故选择泰坦尼克号-从灾难中学习机器这道题,以保证完成完整项目。

    意义:分析在这次灾难中哪些人更可能存活。

    二、实践方案

    电脑上已经配置好完成该项目的具体环境,接下来在https://www.kaggle.com/competitions上进行相关的数据采集,

    用anaconda和Pycharm分析,进行模型构建,对题目进行分析。

    三、实践任务分解

    ①采集数据,导入数据,查看数据集信息

    ②数据预处理:进行数据清洗与特征处理数据分类

    ③建立训练测试集与测试数据集,选择机器学习算法训练模型

    ④模型评估

    ⑤提交结果到kaggle

    ⑥写实验报告

    四、实践计划

    按任务分解撰写计划表,每天按计划表开展工作。

    第天根据实际情况更新计划表,有必要时调整。

    任务 6.23 6.24 6.25 6.26 6.27 6.28 6.29 6.30 7.1
    采集数据,导入数据,查看数据集信息                
    数据预处理              
    建立训练测试集与测试数据集,选择机器学习算法训练模型            
    模型评估              
    提交结果到kaggle                
    写实验报告                

    1.

    大数据平台安装软件:

    链接:https://pan.baidu.com/s/1lZM6BkZ6XoRE3uwepsQ_5A
    提取码:ao1m

    虚拟机镜像文件:

    链接:https://pan.baidu.com/s/1e0qak_9Uymn_R1HmSu5ZLw  
    提取码:q0lt

    2.

    https://www.kaggle.com/competitions

    说明:

      • 个人项目,不要求组队,确实需要组队的说明理由。
      • 边操作边记录;
      • 每天完成当天文档;
      • 最后综合成课程实践报告。
  • 相关阅读:
    [转载]网络流ISAP算法的简单介绍
    [漫画]120430 混血男孩
    [代码]SGU 270 Thimbles
    [代码]UVALive 5882 Racing Car Trail
    [代码]SGU 298 King Berl VI
    [解题报告]Codeforces 105D Entertaining Geodetics
    07年的第一个小时
    简单工厂模式
    讨厌什么
    休息像神的味道
  • 原文地址:https://www.cnblogs.com/huangzixuan/p/13183509.html
Copyright © 2011-2022 走看看