zoukankan      html  css  js  c++  java
  • 面试范围

    面试问的比较多的

    JAVA:进程、线程、多线程、反射、IO、集合、网络编程、接口、类与对象

    Linux:shell脚本、AWK与sed指令,其他常用指令

    hadoop:HDFS读写机制、mapreduce的执行流程、shuffle的执行流程、yarn平台的执行流程、hive的架构、hive中的各种join、视图、索引、hive中的数据倾斜、hive中的HQL语句如何转换成mapreduce任务的

                 面试时还有可能现场写HQL语句

                 Zookeeper的运行原理、选举机制

                 Hbase的架构原理、逻辑结构与物理机构、列族、RowKey、常用的shell命令、常用Java API、  Hbase作为输入或输出 源的实现思路、布隆过滤器、扫描器

    spark:scala中的Trait(特质)、高阶函数、匿名函数、模式匹配、类型参数、集合(seq、set、map)、伴生类与伴生对象、apply方法、隐式转换(隐式函数、隐式参数、隐式值)、actor、偏函数

              spark的运行原理、spark与hadoop的区别、spark为什么处理数据的速度比较快(基于内存计算、DAG)

              flatmap与map的区别、reduceByKey与groupByKey的区别、容错机制(lineage、checkpoint)、窄依赖于宽依赖的区别、共享变量(广播变量、累加器)

             sparkContext初始化的过程和运行原理

             sparksql的执行流程、sqlcontext与hivecontext的区别、

             如何对文本文件、json、parquet进行操作

             spark streaming架构原理、streamingContext的初始化过程

             spark streaming如何操作flumekafka中的数据

            flume(海量日志收集系统)的组件有哪些,数据在flume中的执行流程

              kafka(分布式发布-订阅消息系统)中组件有哪些:发布者(或生产者)producer Broker Server订阅过程(或消费者)consumer

            kafka的消息发布订阅的执行过程

             spark streaming 与storm的区别

            解释一下DStream(离散流)、windows窗口操作(窗口长度,滑动时间间隔)

    spark MLlib:(可选)

    机器学习(ML):k-means、KNN、决策树

    神经网络、朴素贝叶斯、回归、降维、关联规则

  • 相关阅读:
    Nginx 部署多个 web 项目(虚拟主机)
    Nginx 配置文件
    Linux 安装 nginx
    Linux 安装 tomcat
    Linux 安装 Mysql 5.7.23
    Linux 安装 jdk8
    Linux 安装 lrzsz,使用 rz、sz 上传下载文件
    springMVC 拦截器
    spring 事务
    基于Aspectj 注解实现 spring AOP
  • 原文地址:https://www.cnblogs.com/liuwei6/p/6625399.html
Copyright © 2011-2022 走看看