大数据开发初学者必看的学习路线

zoukankan html css js c++ java

大数据开发初学者必看的学习路线

大数据时代的出现简单的讲是海量数据同完美计算能力结合的结果，确切的说是移动互联网、物联网产生了海量的数据，大数据计算技术完美地解决了海量数据的收集、存储、计算、分析的问题。当我们最初谈大数据的时候，谈的最多的可能是用户行为分析，即通过各种用户行为，包括浏览记录，消费记录，交往和购物娱乐，行动轨迹等各种用户行为产生的数据。由于这些数据本身符合海量，异构的特征，同时通过分析这些数据之间的关联性容易匹配某些结果现象。

当然大数据的价值远远不止于此，大数据对各行各业的渗透，大大推动了社会生产和生活，未来必将产生重大而深远的影响。那么回归主题，如何进行大数据领域，学习线路是什么？

第一阶段：大数据基础Java语言基础阶段

详细知识点介绍：

Java开发介绍：Java的发展历史，Java的应用领域，Java语言的特性，Java面向对象，Java性能分类，搭建Java环境，Java工作原理

熟悉Eclipse开发工具：Eclipse简介与下载，安装Eclipse的中文语言包， Eclipse的配置与启动，Eclipse工作台与视图，“包资源管理器”视图，使用Eclipse，使用编辑器编写程序代码

Java语言基础：Java主类结构，基本数据类型，变量与常量，Java运算符，数据类型转换，代码注释与编码规范，Java帮助文档

Java流程控制：复合语句，条件语句，if条件语句， switch多分支语句，while循环语句， do…while循环语句， for循环语句

Java字符串：String类，连接字符串，获取字符串信息，字符串操作，格式化字符串，使用正则表达式，字符串生成器

Java数组与类和对象：数组概述，一维数组的创建及使用，二维数组的创建及使用，数组的基本操作，数组排序算法，Java的类和构造方法、Java的对象，属性和行为

数字处理类与核心技术：数字格式化与运算，随机数与大数据运算，类的继承与Object类，对象类型的转换，使用instanceof操作符判断对象类型，方法的重载与多态，抽象类与接口

I/O与反射、多线程：流概述与File类，文件输入/输出流，缓存输入/输出流， Class类与Java反射，Annotation功能类型信息，枚举类型与泛型，创建、操作线程与线程安全

Swing程序与集合类：常用窗体，标签组件与图标，常用布局管理器与面板，按钮组件与列表组件，常用事件监听器，集合类概述，Set集合与Map集合及接口

PC端网站布局：HTML基础，CSS基础，CSS核心属性，CSS样式层叠，继承，盒模型，容器，溢出及元素类型，浏览器兼容与宽高自适应，定位，锚点与透明，图片整合，表格，CSS属性与滤镜，CSS优化HTML5+CSS3基础：HTML5新增的元素与属性， CSS3选择器，文字字体相关样式，CSS3位移与变形处理，CSS3 2D、3D转换与动画，弹性盒模型，媒体查询，响应式设计

WebApp页面布局项目：移动端页面设计规范，移动端切图，文字流式/控件弹性/图片等比例的布局，等比缩放布局，viewport/meta，rem/vw的使用，flexbox详解，移动web特别样式处理

原生Java功能开发：原生Java功能开发，Java使用及运作原理，Java基本语法，Java内置对象，事件，事件原理，Java基本特效制作，cookie存储，正则表达式

Ajax异步交互：Ajax概述与特征，Ajax工作原理，对象，同步与异步，Ajax异步交互，Ajax跨域问题，Ajax数据的处理，基于WebSocket和推送的实时交互

JQuery应用：各选择器使用及应用优化，Dom节点的各种操作，事件处理、封装、应用，jQuery中的各类动画使用，可用性表单的开发，jQuery Ajax、函数、缓存， jQuery编写插件、扩展、应用，理解模块式开发及应用

数据库：Mysql数据库，JDBC开发，连接池和DBUtils，Oracle介绍，MongoDB数据库介绍，apache服务器/Nginx服务器，Memcached内存对象缓存系统

JavaWeb开发核心：XML技术，HTTP协议，Servlet工作原理解析，深入理解Session与Cookie，Tomcat的系统架构与设计模式，JSP语法与内置对象，JDBC技术，大浏览量系统的静态化架构设计

JavaWeb开发内幕：深入理解Web请求过程，Java I/O的工作机制，Java Web中文编码，Javac编译原理，class文件结构，ClassLoader工作机制，JVM体系结构与工作方式，JVM内存管理

第二阶段：Linux系统Hadoop生态体系

详细知识点介绍：

Linux体系：VMware Workstation虚拟软件安装过程、CentOS虚拟机安装过程，了解机架服务器，采用真实机架服务器部署linux，Linux的常用命令：常用命令的介绍、常用命令的使用和练习，Linux系统进程管理基本原理及相关管理工具如ps、pkill、top、htop等的使用，Linux启动流程，运行级别详VI、VIM编辑器：VI、VIM编辑器的介绍、VI、VIM扥使用和常用快捷键， Linux用户和组账户管理：用户的管理、组管理，Linux磁盘管理，lvm逻辑卷，nfs详解，Linux系统文件权限管理：文件权限介绍、文件权限的操作，Linux的RPM软件包管理：RPM包的介绍、RPM安装、卸载等操作，yum命令，yum源搭建，Linux网络：Linux网络的介绍、Linux网络的配置和维护，Shell编程，Shell的介绍、Shell脚本的编写

Linux上常见软件的安装：安装JDK、安装Tomcat、安装mysql,web项目部署

Hadoop离线计算：Hadoop生态环境介绍，Hadoop云计算中的位置和关系，国内外Hadoop应用案例介绍，国内外Hadoop应用案例介绍，Hadoop 概念、版本、历史，Hadoop 核心组成介绍及hdfs、mapreduce 体系结构，Hadoop 的集群结构，Hadoop 伪分布的详细安装步骤，通过命令行和浏览器观察hadoop，HDFS底层&& datanode,namenode详解&&shell&&Hdfs java api，Mapreduce四个阶段介绍，Writable，InputSplit和OutputSplit，Maptask，Shuffle：Sort，Partitioner，Group,Combiner，Reducer，Mapreducer案例：二次排序，倒排序索引，最优路径，电信数据挖掘之-----移动轨迹预测分析（中国棱镜计划），社交好友推荐算法，互联网精准广告推送算法，Hadoop离线计算大纲，阿里巴巴天池大数据竞赛《天猫推荐算法》，Mapreduce实战pagerank算法，Hadoop2.x集群结构体系介绍，Hadoop2.x集群搭建，NameNode的高可用性（HA），HDFS Federation，ResourceManager 的高可用性（HA），Hadoop集群常见问题和解决方法，Hadoop集群管理

分布式数据库Hbase：Hbase简介，HBase与RDBMS的对比，数据模型，系统架构，HBase上的MapReduce，表的设计，集群的搭建过程讲解，集群的监控，集群的管理，HBase Shell以及演示， Hbase 树形表设计，Hbase 一对多和多对多表设计，Hbase 微博案例，Hbase 订单案例，Hbase表级优化，分布式数据库Hbase，Hbase 写数据优化，Hbase 读数据优化Hbase API操作，hbase mapdreduce 和hive 整合数据仓库Hive：数据仓库基础知识，Hive定义，Hive体系结构简介，Hive集群，客户端简介，HiveQL定义，HiveQL与SQL的比较，数据类型，外部表和分区表，ddl与CLI客户端演示，dml与CLI客户端演示，select与CLI客户端演示，Operators 和 functions与CLI客户端演示，Hive server2 与jdbc，用户自定义函数（UDF 和 UDAF）的开发与演示，Hive 优化，serde

数据迁移工具Sqoop：Sqoop简介以及使用，Sqoop shell使用，Sqoop-import，DBMS-hdfs，DBMS-hive，DBMS-hbase，Sqoop-export

Flume分布式日志框架：flume简介-基础知识，flume安装与测试，flume部署方式，flume source相关配置及测试，flume sink相关配置及测试，flume selector 相关配置与案例分析，flume Sink Processors相关配置和案例分析，flume Interceptors相关配置和案例分析，flume AVRO Client开发，flume 和kafka 的整合

第三阶段：分布式计算框架Spark&Storm生态体系

详细知识点介绍：

Scala编程语言：scala解释器、变量、常用数据类型等，scala的条件表达式、输入输出、循环等控制结构，scala的函数、默认参数、变长参数等，scala的数组、变长数组、多维数组等，scala的映射、元组等操作，scala的类，包括bean属性、辅助构造器、主构造器，scala的对象、单例对象、伴生对象、扩展类、apply方法等，scala的包、引入、继承等概念，scala的特质，scala的操作符，scala的高阶函数，scala的集合，scala数据库连接

Spark大数据处理：Spark介绍，Spark应用场景，Spark和Hadoop MR、Storm的比较和优势， RDD，Transformation，Action，Spark计算PageRank，Lineage， Spark模型简介，Spark缓存策略和容错处理，宽依赖与窄依赖，Spark配置讲解，Spark集群搭建，集群搭建常见问题解决，Spark原理核心组件和常用RDD，数据本地性，任务调度，DAGScheduler，TaskScheduler，Spark源码解读，性能调优，Spark和Hadoop2.x整合：Spark on Yarn原理

Spark—Streaming大数据实时处理：Spark Streaming：数据源和DStream ，无状态transformation与有状态transformation，Streaming Window的操作，sparksql 编程实战，spark的多语言操作，spark最新版本的新特性

Spark—Mlib机器学习：Mlib简介，Spark MLlib组件介绍，基本数据类型，回归算法，广义线性模型，逻辑回归，分类算法，朴素贝叶斯，决策树，随机森林，推荐系统，聚类

Spark—GraphX 图计算：二分图，构造图，属性图，PageRank3.5.2 概述构造图，属性图，PageRank

storm技术架构体系：项目技术架构体系，Storm是什么，Storm架构分析，Storm编程模型、Tuple源码、并发度分析，Transformation，Maven环境快速搭建，Storm WordCount案例及常用Api，Storm+Kafka+Redis业务指标计算，3.6.9 Storm集群安装部署，Storm源码下载编译

Storm原理与基础：Storm集群启动及源码分析，Storm任务提交及源码分析，Storm数据发送流程分析，Strom通信机制分析浅谈，Storm消息容错机制及源码分析，Storm多stream项目分析，Storm Trident和传感器数据，实时趋势分析，Storm DRPC(分布式远程调用)介绍，Storm DRPC实战讲解，编写自己的流式任务执行框架

消息队列kafka：消息队列是什么，kafka核心组件，kafka集群部署实战及常用命令，kafka配置文件梳理，kafka JavaApi学习，kafka文件存储机制分析，kafka的分布与订阅，kafka使用zookeeper进行协调管理Redis工具：nosql介绍，redis介绍，redis安装，客户端连接，redis的数据功能，redis持久化，redis应用案例

zookeeper详解：zookeeper简介，zookeeper的集群部署，zookeeper的核心工作机制，zookeeper的命令行操作，zookeeper的客户端API，zookeeper的应用案例，zookeeper的原理补充

第四阶段：大数据项目实战

第五阶段：大数据分析方向AI(人工智能)

详细知识点介绍：

Python编程&&Data Analyze工作环境准备&数据分析基础：介绍Python以及特点，Python的安装，Python基本操作（注释、逻辑、字符串使用等），Python数据结构（元组、列表、字典），使用Python进行批量重命名小例子，Python常见内建函数，更多Python函数及使用常见技巧，异常，Python函数的参数讲解，Python模块的导入，网络爬虫案例，数据库连接，以及pip安装模块，Mongodb基础入门，讲解如何连接mongodb，Python的机器学习案例，AI&&机器学习&&深度学习概论，工作环境准备，数据分析中常用的Python技巧，Pandas进阶及技巧，数据的统计分析

数据可视化：数据可视化的概念，图表的绘制及可视化，动画及交互渲染，数据合并、分组

Python机器学习：机器学习的基本概念，ML工作流程，Python机器学习库scikit-learn，KNN模型，线性回归模型，逻辑回归模型，支持向量机模型，决策树模型，超参数&&学习参数，模型评价指标，交叉验证，机器学习经典算法，朴素贝叶斯，随机森林，GBDT

图像识别&&神经网络：图像操作的工作流程，特征工程，图像特征描述，AI网络的描述，深度学习，TensorFlow框架学习，TensorFlow框架卷积神经网络（CNN）

自然语言处理&&社交网络处理：Python文本数据处理，自然语言处理及NLTK，主题模型，LDA，图论简介，网络的操作及数据可视化

查看全文

相关阅读:
自然常数e怎么得来的？
一元线性回归模型
 最小二乘法
 Box-Cox转换
 需要的数学技能
 偏导数
 FineReport 表格分类
 FineReport 普通报表
 FineReport 单元格
 FineReport创建普通报表的流程

原文地址：https://www.cnblogs.com/coffees/p/9963669.html

大数据开发初学者必看的学习路线

第一阶段：大数据基础Java语言基础阶段

第二阶段：Linux系统Hadoop生态体系

第三阶段：分布式计算框架Spark&Storm生态体系

第四阶段：大数据项目实战

第五阶段：大数据分析方向AI(人工智能)