zoukankan      html  css  js  c++  java
  • 大数据面试题

    Linux部分

    ①列举你使用的常用指令?
    ②怎么查看服务是否开启?后面的参数都是什么意思?
    ③怎么查看服务器内存使用情况?
    ④日志查看指令?
    ⑤跨机房怎么传输文件?

    Hadoop部分

    ①怎么搭建一个Hadoop集群?
    ②Hadoop的Shuffer机制?
    ③切片概念?文件256M时,几个切片?
    ④Mr任务提交到yarn流程?
    ⑤数据倾斜概念?

    Hive部分

    ①hive本质?
    ②group by、sort by、oreder by、distribute by、cluster by、partition by区别?
    ③开窗函数理解?
    ④UDF实现过程?
    ⑤有出现过HQL执行出现OOM的现象吗?
    ⑥hive导入数据和到处数据的方式?

    HBase部分

    ①集群角色以及作用?
    ②client写过程和读过程?
    ③布隆过滤器?
    ④Hbase存储特点、与mysql相比?
    ⑤rowkey的设计?
    ⑥cell组成?
    ⑦compact触发时间?作用?

    Kafka部分

    ①为什么要使用Kafka?好处?
    ②集群角色?
    ③kafka中数据写入过程?Follwer与leader如何实现数据同步?
    ④kafka消费者组概念?

    Flume部分

    ①Flume组件成员以及含义?
    ②Flume传输数据方式?
    ③Flume传输数据会丢失吗?怎样避免丢失

    Flink部分

    ①Flink最小计算单元?
    ②Flink任务提交至yarn流程?
    ③Flink时间语义几种、含义?
    ④Flink窗口类型?
    ⑤Flink状态后端类型?一般使用哪种类型?
    ⑥watermark水位线机制?如何设置数据延迟?
    ⑦checkpoint和savepoint区别?有什么好处?
    ⑧怎么理解Flink是保证数据不丢失的?端到端一致性含义?
    ⑨Flink提供了几层api?分别都适用哪些场景?

    Spark部分

    ①角色组成与作用?
    ②spark提交任务至yarn流程?
    ③RDD含义及其特性?
    ④宽依赖与窄依赖?

  • 相关阅读:
    Windows 下安装 Python环境安装
    关于form表单提交ajaxForm和ajaxSubmit的用法与区别
    .NET Core Runtime 和 .NET Core SDK
    路由表中没有与提供的值匹配的路由
    SQL server Cannot find one or more
    CentOS7安装完毕,重新开机启动后显示: Initial setup of CentOS Linux 7 (core)
    private static
    接口和抽象类
    static const readonly
    frameset的使用小结
  • 原文地址:https://www.cnblogs.com/sunbr/p/13266169.html
Copyright © 2011-2022 走看看