一、选题与意义
1.Hadoop平台应用
2.Kaggle分析数据项目
简要说明理由与意义。
选择Kaggle分析数据项目,电脑环境比较差对安装配置又比较不在行,故选择Kaggle上的项目进行分析。
二、实践方案
简要说明理由。
选择了深圳市二手房房价数据进行研究。
数据描述:
深圳二手房房价等相关数据,共18514条数据
数据来源:
搜房网 深圳 二手房数据
通过对数据的清洗及处理,筛选对房价有显著影响的特征变量,对假设结论进行检验,确定特征变量,建立房价预测模型,并对假设情景进行模拟
三、实践任务分解
根据所选的题目,明确实验步骤,分解任务到每天
1.目标数据集选定
2.数据获取与理解
3.设定研究目标
4.数据清洗与预处理
5.因变量分析
6.自变量分析
7.建立预测模型(线性回归、k-means分类)
8.模型评估与完善
9.模拟场景预测
10.完善、总结、报告编写
四、实践计划
按任务分解撰写计划表,每天按计划表开展工作。
根据实际情况更新计划表,有必要时调整。
说明:
- 个人项目,不要求组队,确实需要组队的说明理由。
- 边操作边记录;
- 每天完成当天文档;
- 最后综合成课程实践报告。