zoukankan      html  css  js  c++  java
  • 大数据面试工程师

    大数据开发工程师

    职位描述
    1、负责字节跳动电商相关业务数据仓库的开发与优化; 2、基于Hive/Flink等平台建设数据仓库,实时数仓建设; 3、负责数据模型的设计,etl实施,etl性能优化以及相关技术问题的解决; 4、负责面向业务的olap,报表,数据提取工具等开发工作。
    职位要求
    1、熟悉大数据相关技术:Kafka/Flink/Hadoop/Druid/HBase/Hive 等; 2、熟练使用 Java、Go、Python语言中的一种或者多种; 3、具备数据库系统理论知识,掌握主流数据库管理和应用,精通SQL; 4、了解统计以及数据挖掘、机器学习、人工智能技术,会使用关联分析、分类预测、聚类分析等常用分析方法; 5、有高性能分布式平台开发经验,有电商行业经验优先。
    遵照公司信息安全管理规定,允许查看与处理移动端发送的消息、文件,禁止在PC端给自己发送消息、文件。

    1、  一个亿数据获取前100个最大的数

    算法原理:

    把一亿个数字的前100个 首先放入数组。 然后把最小值放在ary[0]。

    然后再循环100到一亿之间的。 每次循环判断当前数字是否大于ary[0]

    当大于时,当前数字放入ary[0] 并再次重构数组最小值进入ary[0]  以此类推 。

    当循环完这一亿个数字后。 最大的前100个数字就出来了。

    https://blog.csdn.net/longzhongxiaoniao/article/details/88074940

    2、  Mysql引擎有几种,各有什么不同

     https://baijiahao.baidu.com/s?id=1655327558614401593&wfr=spider&for=pc

    3、  Mysql事务级别

    https://zhuanlan.zhihu.com/p/117476959

    4、  Mysql事务级别怎么实现的

     https://www.cnblogs.com/cjsblog/p/8365921.html

    5、  HIVE计算连续登陆超过N天的人

          https://blog.csdn.net/qq_42692386/article/details/107867543?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.control&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.control

    6、  HashMap底层实现原理解析

    https://baijiahao.baidu.com/s?id=1665667572592680093&wfr=spider&for=pc

    链表和数组的结合,通过hash值的运算可以获得每个链表位置,通过equal比对每个链表元素存储到末尾。

    7、  Python使用list和map实现LRU算法

    https://www.jb51.net/article/68305.htm

    8、  Python使用list和map实现LRU算法

    9、  HIVE两个表join,过滤条件在ON后边和where后边有哪些不同

           https://blog.csdn.net/aaaaajiboke/article/details/82730012

    10、离线仓库实时sql优化

    https://www.cnblogs.com/w-j-q/p/13963827.html

     11、定时调度如何实现、百万qps如何优化

    https://segmentfault.com/a/1190000018075241?utm_source=tag-newest

    使用NGINX调度访问,进行访问分流;其次Redis缓存,减少数据访问次数;减少网络四次握手的等待时间

     12、spark和mapreduce差异的原因

    spark为什么比mapreduce运行速度快很多

     
    • 比较重要的2个原因

    –            1、基于内存

                   mapreduce任务每次都会把结果数据落地到磁盘,后续有其他的job需要依赖于前面job的输出结果,这里就需要进行大量的磁盘io操作,获取前面job的输出结果。性能非常低

        例如:select name,age from ( select * from user where address = 'beijing')
            ------------job2--------  ------------------job1-----------------------
        spark任务的输出结果可以保存在内存中,后续有其他的job需要依赖于前面job的输出结果,这里就只需要直接从内存中获取得到,大大减少磁盘io操作。

        spark框架适合于迭代计算
        job1----->job2----->job3----->job4----->job5----->jobN......

    –            2、进程和线程

                   mapreduce任务它是以进程的方式运行在yarn集群中,比如说一个mapreduce任务有100个MapTask,后期需要运行这100个task,就需要启动100个进程。
        spark任务它是以线程的方式运行在worker节点的executor进程中,比如说一个spark任务有100个MapTask,这里后期需要运行100个线程就可以了。
        可以这样极端一点:只需要启动一个进程,在一个进程中运行100个线程就可以了.开启一个进程比开启一个线程需要的时间和资源调度肯定是不一样,开启一个进程需要的时间远远大于线程.

     13、mysql索引,联合索引 abc,查询条件里abc的索引会命中吗?不会命中
     
                https://www.jianshu.com/p/499cf5795de5?open_source=weibo_search
    14、mysql+redis 保证数据一致性
     
    https://zhuanlan.zhihu.com/p/91770135
     
  • 相关阅读:
    python自动化测试基础篇no.1
    (易忘篇)java8新特性
    (易忘篇)java基础编程高级阶段5
    (易忘篇)java基础编程高级阶段4
    (易忘篇)java基础编程高级阶段2
    (易忘篇)java基础编程高级阶段1
    (易忘篇)java基础编程难点5
    (易忘篇)java基础编程难点4
    (易忘篇)java基础编程难点3
    (易忘篇)java基础编程难点2
  • 原文地址:https://www.cnblogs.com/xinghaiyige/p/14029082.html
Copyright © 2011-2022 走看看