zoukankan      html  css  js  c++  java
  • 大数据面试题

    Linux部分

    ①列举你使用的常用指令?
    ②怎么查看服务是否开启?后面的参数都是什么意思?
    ③怎么查看服务器内存使用情况?
    ④日志查看指令?
    ⑤跨机房怎么传输文件?

    Hadoop部分

    ①怎么搭建一个Hadoop集群?
    ②Hadoop的Shuffer机制?
    ③切片概念?文件256M时,几个切片?
    ④Mr任务提交到yarn流程?
    ⑤数据倾斜概念?

    Hive部分

    ①hive本质?
    ②group by、sort by、oreder by、distribute by、cluster by、partition by区别?
    ③开窗函数理解?
    ④UDF实现过程?
    ⑤有出现过HQL执行出现OOM的现象吗?
    ⑥hive导入数据和到处数据的方式?

    HBase部分

    ①集群角色以及作用?
    ②client写过程和读过程?
    ③布隆过滤器?
    ④Hbase存储特点、与mysql相比?
    ⑤rowkey的设计?
    ⑥cell组成?
    ⑦compact触发时间?作用?

    Kafka部分

    ①为什么要使用Kafka?好处?
    ②集群角色?
    ③kafka中数据写入过程?Follwer与leader如何实现数据同步?
    ④kafka消费者组概念?

    Flume部分

    ①Flume组件成员以及含义?
    ②Flume传输数据方式?
    ③Flume传输数据会丢失吗?怎样避免丢失

    Flink部分

    ①Flink最小计算单元?
    ②Flink任务提交至yarn流程?
    ③Flink时间语义几种、含义?
    ④Flink窗口类型?
    ⑤Flink状态后端类型?一般使用哪种类型?
    ⑥watermark水位线机制?如何设置数据延迟?
    ⑦checkpoint和savepoint区别?有什么好处?
    ⑧怎么理解Flink是保证数据不丢失的?端到端一致性含义?
    ⑨Flink提供了几层api?分别都适用哪些场景?

    Spark部分

    ①角色组成与作用?
    ②spark提交任务至yarn流程?
    ③RDD含义及其特性?
    ④宽依赖与窄依赖?

  • 相关阅读:
    AOSP 设置编译输出目录
    android stadio 编译报错:download fastutil-7.2.0.jar
    Ubuntu adb 报错:no permissions (user in plugdev group; are your udev rules wrong?);
    Ubuntu 18启动失败 Started Hold until boot procss finishes up
    算法---------两数之和
    Windows 显示环境变量
    Android ObjectOutputStream Serializable引发的血案
    (AOSP)repo checkout指定版本
    如果看懂git -help
    Android stado 运行项目,apk does not exist on disk.
  • 原文地址:https://www.cnblogs.com/sunbr/p/13266169.html
Copyright © 2011-2022 走看看