zoukankan      html  css  js  c++  java
  • 大数据面试题

    Linux部分

    ①列举你使用的常用指令?
    ②怎么查看服务是否开启?后面的参数都是什么意思?
    ③怎么查看服务器内存使用情况?
    ④日志查看指令?
    ⑤跨机房怎么传输文件?

    Hadoop部分

    ①怎么搭建一个Hadoop集群?
    ②Hadoop的Shuffer机制?
    ③切片概念?文件256M时,几个切片?
    ④Mr任务提交到yarn流程?
    ⑤数据倾斜概念?

    Hive部分

    ①hive本质?
    ②group by、sort by、oreder by、distribute by、cluster by、partition by区别?
    ③开窗函数理解?
    ④UDF实现过程?
    ⑤有出现过HQL执行出现OOM的现象吗?
    ⑥hive导入数据和到处数据的方式?

    HBase部分

    ①集群角色以及作用?
    ②client写过程和读过程?
    ③布隆过滤器?
    ④Hbase存储特点、与mysql相比?
    ⑤rowkey的设计?
    ⑥cell组成?
    ⑦compact触发时间?作用?

    Kafka部分

    ①为什么要使用Kafka?好处?
    ②集群角色?
    ③kafka中数据写入过程?Follwer与leader如何实现数据同步?
    ④kafka消费者组概念?

    Flume部分

    ①Flume组件成员以及含义?
    ②Flume传输数据方式?
    ③Flume传输数据会丢失吗?怎样避免丢失

    Flink部分

    ①Flink最小计算单元?
    ②Flink任务提交至yarn流程?
    ③Flink时间语义几种、含义?
    ④Flink窗口类型?
    ⑤Flink状态后端类型?一般使用哪种类型?
    ⑥watermark水位线机制?如何设置数据延迟?
    ⑦checkpoint和savepoint区别?有什么好处?
    ⑧怎么理解Flink是保证数据不丢失的?端到端一致性含义?
    ⑨Flink提供了几层api?分别都适用哪些场景?

    Spark部分

    ①角色组成与作用?
    ②spark提交任务至yarn流程?
    ③RDD含义及其特性?
    ④宽依赖与窄依赖?

  • 相关阅读:
    数据库连接池
    Apache- DBUtils框架学习
    权限表的设计
    Java的I/O对文件的操作
    Java下载文件
    Java连接MySQL数据库
    C#用log4net记录日志
    C#多线程和线程池
    C#利用反射动态调用DLL并返回结果,和获取程序集的信息
    CephRGW 在多个RGW负载均衡场景下,RGW 大文件并发分片上传功能验证
  • 原文地址:https://www.cnblogs.com/sunbr/p/13266169.html
Copyright © 2011-2022 走看看