zoukankan      html  css  js  c++  java
  • 大数据应用技术课程实践--选题与实践方案

    一、选题与意义

    1.Hadoop平台应用

    2.Kaggle分析数据项目

    选择题目:1、Hadoop平台应用:淘宝双11数据分析与预测

    意义:因为之前学过,所以有一定的基础,可以复习一下之前的知识。

    二、实践方案

    步骤零:实验环境准备

     所需知识储备 Windows操作系统、Linux操作系统、大数据处理架构Hadoop的关键技术及其基本原理、列族数据库HBase概念及其原理、数据仓库概念与原理、关系型数据库概念与原理
    训练技能 双操作系统安装、虚拟机安装、Linux基本操作、Hadoop安装、HBase安装、Sqoop安装、Eclipse安装
    任务清单 1. 安装Linux系统;2. 安装Hadoop;3. 安装MySQL;4. 安装Hive;5. 安装Sqoop;6. 安装Spark;7. 安装Eclipse

    步骤一:本地数据集上传到数据仓库Hive

     所需知识储备 Linux系统基本命令、Hadoop项目结构、分布式文件系统HDFS概念及其基本原理、数据仓库概念及其基本原理、数据仓库Hive概念及其基本原理
     训练技能 Hadoop的安装与基本操作、HDFS的基本操作、Linux的安装与基本操作、数据仓库Hive的安装与基本操作、基本的数据预处理方法
    任务清单 1. 安装Linux系统;2. 数据集下载与查看;3. 数据集预处理;4. 把数据集导入分布式文件系统HDFS中;5. 在数据仓库Hive上创建数据库

    步骤二:Hive数据分析

    所需知识储备 数据仓库Hive概念及其基本原理、SQL语句、数据库查询分析
    训练技能  数据仓库Hive基本操作、创建数据库和表、使用SQL语句进行查询分析
    任务清单 1. 启动Hadoop和Hive;2. 创建数据库和表;3. 简单查询分析;4. 查询条数统计分析;5. 关键字条件查询分析;6. 根据用户行为分析;7. 用户实时查询分析

    步骤三:将数据从Hive导入到MySQL

    所需知识储备 数据仓库Hive概念与基本原理、关系数据库概念与基本原理、SQL语句
    训练技能 数据仓库Hive的基本操作、关系数据库MySQL的基本操作、Sqoop工具的使用方法
    任务清单 1. Hive预操作;2. 使用Sqoop将数据从Hive导入MySQL

    步骤四:利用ECharts进行数据可视化分析

    所需知识储备 数据可视化、Java、JSP、JavaScript、HTML
    训练技能 利用JSP语言获取MySQL中的数据、搭建一个简单的动态Web应用、ECharts可视化应用
    任务清单 1. 搭建tomcat+mysql+JSP开发环境2. 利用Eclipse新建可视化Web应用3. 前后端代码编写, 并添加ECharts可视化分析

    步骤五:利用Spark预测回头客行为

    所需知识储备 Spark、机器学习
    训练技能 Spark的安装与基本操作、利用Spark 自带的MLlib库,对数据集进行分类预测
    任务清单 1. 安装Spark 2.预处理训练集和测试集3.使用支持向量机SVM分类器预测回客行为

    三、实践任务分解

    1. 安装Linux操作系统
    2. 安装关系型数据库MySQL
    3. 安装大数据处理框架Hadoop
    4. 安装数据仓库Hive
    5. 安装Sqoop
    6. 安装Eclipse
    7. 安装 Spark
    8. 对文本文件形式的原始数据集进行预处理
    9. 把文本文件的数据集导入到数据仓库Hive中
    10. 对数据仓库Hive中的数据进行查询分析
    11. 使用Sqoop将数据从Hive导入MySQL
    12. 利用Eclipse搭建动态Web应用
    13. 利用ECharts进行前端可视化分析
    14. 利用Spark MLlib进行回头客行为预测

    四、实践计划

    1.

    大数据平台安装软件:

    链接:https://pan.baidu.com/s/1lZM6BkZ6XoRE3uwepsQ_5A
    提取码:ao1m

    虚拟机镜像文件:

    链接:https://pan.baidu.com/s/1e0qak_9Uymn_R1HmSu5ZLw  
    提取码:q0lt

    2.

    https://www.kaggle.com/competitions

    说明:

      • 个人项目,不要求组队,确实需要组队的说明理由。
      • 边操作边记录;
      • 每天完成当天文档;
      • 最后综合成课程实践报告。
  • 相关阅读:
    Error Domain=com.google.greenhouse Code=-102
    给分类(Category)添加属性
    Eclipse 4.4(luna) 安装Veloeclipse 2.0.8时报错的问题
    MAVEN常用命令
    Redis之七种武器
    Redis系统性介绍
    Nginx、LVS及HAProxy负载均衡软件的优缺点详解
    Redis介绍以及安装(Linux)
    MYSQL + MHA +keepalive + VIP安装配置(三)--keepalived安装配置
    MYSQL + MHA +keepalive + VIP安装配置(二)--MHA的配置
  • 原文地址:https://www.cnblogs.com/av10492/p/13184228.html
Copyright © 2011-2022 走看看