一、选题与意义
1.Hadoop平台应用
2.Kaggle分析数据项目
简要说明理由与意义。
答:选择Kaggle分析数据项目
项目:房价预测(House Prices)
理由与意义:由于第一题Hadoop环境搭建困难重重,加上硬件设备需要500G+8G以上,故选择第二题。选择房价预测的目的是房价这方面是跟我们生活比较符合,有很高的项目价值。
二、实践方案
简要说明理由。
答:使用annconda环境进行编码
三、实践任务分解
根据所选的题目,明确实验步骤,分解任务到每天。
第一、二天(6.23,6.24):
数据导入与预处理:
- 模块导入
- 数据导入
- 特征处理
- 异常处理等
第三、四天(6,24-6,25):
特征处理:
- 数据集连接
- 缺失数据分析
- 数据相关性
- 重新划分数据集等
第五------八天(6.26-6.30):
建模:
- 交叉验证
- 建立基础模型
模型训练与测试:
- 定义评估模型
- 模型训练、预测、评估
- 生成结果文件
第九天(7.1):
1、整理实验报告及相关文档
2、完成课程实践报告
四、实践计划
按任务分解撰写计划表,每天按计划表开展工作。
第天根据实际情况更新计划表,有必要时调整。
1.
- 网站用户购物行为分析
- 官网:http://dblab.xmu.edu.cn/post/7499/
- 淘宝双11数据分析与预测
- 官网:http://dblab.xmu.edu.cn/post/8116/
- 电信用户行为分析
- http://dblab.xmu.edu.cn/post/useranalysis/
大数据平台安装软件:
链接:https://pan.baidu.com/s/1lZM6BkZ6XoRE3uwepsQ_5A
提取码:ao1m
虚拟机镜像文件:
链接:https://pan.baidu.com/s/1e0qak_9Uymn_R1HmSu5ZLw
提取码:q0lt
2.
https://www.kaggle.com/competitions
说明:
- 个人项目,不要求组队,确实需要组队的说明理由。
- 边操作边记录;
- 每天完成当天文档;
- 最后综合成课程实践报告。