一、选题与意义
1.Hadoop平台应用
2.Kaggle分析数据项目
简要说明理由与意义。
本次实践选题为“2.Kaggle分析数据项目”。项目选取属个人兴趣以及能力擅长。
数据集来源于Kaggle,对在Rotten Tomatoes(烂番茄电影评论)数据集上的情绪分析想法进行基准测试。要求按五个等级标记短语:消极,有点消极,中立,有点积极,积极。
二、实践方案
简要说明理由。
在选取完数据集后,先对数据进行预处理等前期准备操作,采取word2vec进行词向量处理,接着选取LSTM模型,进行模型构建、训练、验证、测试等一系列操作。本次实验将会凸显LSTM模型的优势,因此会选择几个机器学习模型进行同样的分类处理作准确率比较。
三、实践任务分解
根据所选的题目,明确实验步骤,分解任务到每天。
1.首先确定题目为Kaggle竞赛项目烂番茄,项目宗旨为分类电影评论中的几种情绪,其中包括消极,有点消极,中立,有点积极,积极。
2.根据官方所给数据进行预处理(由于是英文,在文本处理方面与中文有所差距。)
3.选择词向量。
4.分类模型选取(此处将会考虑LSTM模型)
5.模型构建、训练、测试
6.预测分类模型的准确率
7.将会做多种模型进行准确率比较。(朴素贝叶斯首选、SVM支持向量机)
四、实践计划
按任务分解撰写计划表,每天按计划表开展工作。
第天根据实际情况更新计划表,有必要时调整。
任务 | 6.23 | 6.24 | 6.28 | 6.30 | 7.1 | 7.2 | 7.3 |
1、题目选择 | √ | ||||||
2、数据预处理 | √ | ||||||
3、词向量Word2Vec | √ | ||||||
4、 模型选择 | √ | ||||||
5、构建LSTM模型 | √ | ||||||
6、训练、验证模型 | √ | ||||||
7、模型准确率预测 | √ | ||||||
8、朴素贝叶斯模型(进行比较) | √ | ||||||
9、SVM支持向量机(进行比较) | √ | ||||||
10、答辩 | √ | ||||||
11、文档集成与提交 | √ |
1.
- 网站用户购物行为分析
- 官网:http://dblab.xmu.edu.cn/post/7499/
- 淘宝双11数据分析与预测
- 官网:http://dblab.xmu.edu.cn/post/8116/
- 电信用户行为分析
- http://dblab.xmu.edu.cn/post/useranalysis/
大数据平台安装软件:
链接:https://pan.baidu.com/s/1lZM6BkZ6XoRE3uwepsQ_5A
提取码:ao1m
虚拟机镜像文件:
链接:https://pan.baidu.com/s/1e0qak_9Uymn_R1HmSu5ZLw
提取码:q0lt
2.
https://www.kaggle.com/competitions
说明:
- 个人项目,不要求组队,确实需要组队的说明理由。
- 边操作边记录;
- 每天完成当天文档;
- 最后综合成课程实践报告。