zoukankan      html  css  js  c++  java
  • 大数据的起步:初学者

    作为一个大数据的初学者,要知道学习一些什么,以及如何的去学习,我也是一个初学者,这是我了解到的学习路线,也是我要走的学习路线。

    原文路线:http://dataunion.org/31604.html

    1、初始Hadoop

    学会搭建Hadoop,跑一跑mapreduce,理解一下原理

    2、更高效的WordCount

    2.1 SQL

    2.2 SQL版的wordcount

    2.3 Hive SQL ON HADOOP

    2.4 安装配置hive

    2.5 使用hive

    2.6 hive是怎么工作的

    2.7 学会hive的基本命令

    具备如下知识点和技能

    0和Hadoop2.0的区别;

    MapReduce的原理(还是那个经典的题目,一个10G大小的文件,给定1G大小的内存,如何使用Java程序统计出现次数最多的10个单词及次数);

    HDFS读写数据的流程;向HDFS中PUT数据;从HDFS中下载数据;

    自己会写简单的MapReduce程序,运行出现问题,知道在哪里查看日志;

    会写简单的SELECT、WHERE、GROUP BY等SQL语句;

    Hive SQL转换成MapReduce的大致流程;

    Hive中常见的语句:创建表、删除表、往表中加载数据、分区、将表中数据下载到本地;

    从上面的学习,你已经了解到,HDFS是Hadoop提供的分布式存储框架,它可以用来存储海量数据,MapReduce是Hadoop提供的分布式计算框架,它可以用来统计和分析HDFS上的海量数据,而Hive则是SQL On Hadoop,Hive提供了SQL接口,开发人员只需要编写简单易上手的SQL语句,Hive负责把SQL翻译成MapReduce,提交运行。

    此时,你的”大数据平台”是这样的:

    大数据

    那么问题来了,海量数据如何到HDFS上呢?

    3、把别处的数据搞到Hadoop上

    3.1 HDFS put命令

    3.2 HDFS API

    3.3 sqoop

    3.4 Flume

    你的”大数据平台”应该是这样的:

    大数据

    4、把hadoop上的数据搞到别处

    4.1 HDFS GET命令

    熟练掌握

    4.2 HDSF API

    4.3 sqoop

    使用Sqoop完成将HDFS上的文件同步到MySQL;
    使用Sqoop完成将Hive表中的数据同步到MySQL;

    你的”大数据平台”应该是这样的:

    大数据

    5、SQL更快一点

    5.1 关于Spark和SparkSQL

    5.2 如何部署和运行SparkSQL

    你的”大数据平台”应该是这样的:

    大数据

    6、一夫多妻制

    6.1 关于Kafka

    6.2 如何部署和使用Kafka

    你的”大数据平台”应该是这样的:

    大数据

    7、越来越多的分析任务

    7.1 Apache Oozie

    7.2 其他开源的任务调度系统

    你的”大数据平台”应该是这样的:

    大数据

    8、数据的实时性要求

    8.1 Storm

    8.2 Spark Streaming

    你的”大数据平台”应该是这样的:

    大数据

    9、数据要对外

    10、高大上的机器学习

    在我们的业务中,遇到的能用机器学习解决的问题大概这么三类:

    分类问题:包括二分类和多分类,二分类就是解决了预测的问题,就像预测一封邮件是否垃圾邮件;多分类解决的是文本的分类;

    聚类问题:从用户搜索过的关键词,对用户进行大概的归类。

    推荐问题:根据用户的历史浏览和点击行为进行相关推荐。

    大多数行业,使用机器学习解决的,也就是这几类问题。

    入门学习线路:

    数学基础;

    机器学习实战(Machine Learning in Action),懂Python最好;

    SparkMlLib提供了一些封装好的算法,以及特征处理、特征选择的方法。

    机器学习确实牛逼高大上,也是我学习的目标。

    那么,可以把机器学习部分也加进你的“大数据平台”了。

    大数据

  • 相关阅读:
    37.altium designer中的class和rules?
    36.Altium Designer(Protel)网络连接方式Port和Net Label详解
    35.在PCB中删除元件
    34.pad designer警告
    33.allegro中Autosilk top, Silkscreen top 和Assembly top三个什么区别(转)
    32.DDR2仿真结果
    31.DDR2问题3_waring?
    30.DDR2问题2_local_init_done为什么没拉高?
    29.DDR2问题1仿真模型文件
    lnmp 基础设置
  • 原文地址:https://www.cnblogs.com/tolazychen/p/8336037.html
Copyright © 2011-2022 走看看