zoukankan      html  css  js  c++  java
  • 面试随笔

     面试清单

    1.开场

    1)简单自我介绍

    2)课程、自学内容介绍

    2.技术问

    0)简历问题浏览

    1)对大数据的了解、对数据仓库的了解

    Java:

    面向对象3个特征

    1.==equals的区别

    == 对于基本类型来说是值比较,对于引用类型来说是比较的是引用;而 equals 默认情况下是引用比较,只是很多类重新了 equals 方法,比如 StringInteger 等把它变成了值比较,所以一般情况下 equals 比较的是值是否相等。

    1. 抽象类是什么?它与接口有什么区别?

    抽象类是指不允许被实例化的类;一个类只能使用一次继承关系。但是,一个类却可以实现多个interface

    abstract classinterface所反映出的设计理念不同。其实abstract class表示的是"is-a"关系,interface表示的是"like-a"关系

    实现抽象类和接口的类必须实现其中的所有方法。抽象类中可以有非抽象方法。接口中则不能有实现方法。但在Java8中允许接口中有静态默认的方法。

    接口中定义的变量默认是public static final 型,且必须给其初值,所以实现类中不能重新定义,也不能改变其值。抽象类中的变量默认是 friendly 型,其值可以在子类中重新定义,也可以重新赋值。

    子类中实现父类中的抽象方法时,可见性可以大于等于父类中的;而接口实现类中的接口 方法的可见性只能与接口中相同(public)。

    用抽象类是为了重用。减少编码量,降低耦合性。

    1. 如何对集合进行去重,如何进行排序?

    使用set()构造,使用重载的Collections.sort(List,Comparator)方法

    1.Python如何实现集合去重?

    2.如何反转一个字符串(abc

    a[::-1]''.join(reversed('123456789'))

    3.python实践:统计一个文本中单词频次最高的10个单词?

    PYTHON编程实践

    统计一个文本中单词频次最高的10个单词?

    import re
    
    class Solution():
    
        def MaxWord(self,file_name):
    
            """
    
            :param file_name: 文件名
    
            :return:
    
            """
    
            with open(file_name,'r') as file:
    
                for lines in file:
    
                    lines=re.sub('W+',' ',lines)
    
                print(lines)
    
                dict_word={}
    
                for i in range(0,len(lines.split(' '))):
    
                    word=lines.split(' ')[i]
    
                    if word not in dict_word:
    
                        dict_word[word]=1
    
                    else:
    
                        dict_word[word]+=1
    
                word_sorted=sorted(dict_word.items(),key=lambda x:x[1],reverse=True)
    
                for i in range(0,10):
    
                    print(word_sorted[i])
    
     
    
    if __name__=='__main__':
    
        solution=Solution()
    
        file_name='E:python_testexercise0406information.txt'
    
        solution.MaxWord(file_name)

    大数据与SQL

    MR基本过程,Combiner位置和作用

    几种JOIN区别

    Hive内部表外部表区别

    一、使用过哪些数据库?(oracle,mysql,sqlserver等),那他们的SQL语句执行顺序是什么?

    (1) from (2) on (3) join (4) where (5)group by(6) avg,sum.... 

    (7)having (8) select (9) distinct (10) order by(11) limit 

    完整4道SQL面试题http://www.itongji.cn/detail?type=99993193

    1. 现有如下学生成绩表st_score:学号,姓名,性别,成绩,课程(语文,数学,英语)

    输出:学号,姓名,性别,语文成绩,数学成绩,英语成绩总共6列,每个学生一条记录,成绩出现重复时选最高成绩,按学号升序

    参考代码

     

    select st_id,
    
    name,
    
    gender,
    
    max(case when lesson = 'math' then score else 0 end) as mt_score,
    
    max(case when lesson = 'Chinese' then score else 0 end) as chi_score,
    
    max(case when lesson = 'English' then score else 0 end) as eng_score
    
    from st_score
    
    group by st_id,name,gender
    
    order by st_id;

    解析

    case when语句是本题的核心,也是行转列这类题目的核心部分,题目要求①要求一个st_id仅存在一条数据,所以这里还需要配合聚合函数使用,用case when语句作为子查询,主查询再进行合并也是可以的,只是会多一个步骤。

     

    要求②中已经明确要求“成绩出现重复时选“最高成绩”,所以表中是有可能出现重复值的,这里只能使用max()函数,如果这里已经明确说明不会出现重复值,就可以用sum()、max()、min()这样的聚合函数。

     

    2.现已将上表查询的结果保存为新表new_score,根据new_score表查询出满足以下条件的结果:学号,姓名,语文成绩,数学成绩,映月成绩,总分6个字段

    ①语数英三门课程的成绩都排在前五(包含第五);

    结果按照总成绩从高到低排列

    参考代码

    select st_id,
    
    name,
    
    mt_score,
    
    chi_score,
    
    eng_score,
    
    total_score
    
    from (
    
    select st_id,
    
    name,
    
    mt_score,
    
    dense_rank() over(order by mt_score DESC) as rn_math,
    
    chi_score,
    
    dense_rank() over(order by chi_score DESC) as rn_chi,
    
    eng_score,
    
    dense_rank() over(order by eng_score DESC) as rn_eng,
    
    mt_score + chi_score + eng_score as total_score
    
    from new_score
    
    ) t
    
    where rn_math <= 5 and rn_chi <= 5 and rn_eng <=5
    
    order by total_score desc;

    解析

    本题考察的是窗口函数中row_number、rank、dense_rank的分辨和使用,根据本题要求②,这里需要使用dense_rank函数,并且顺序要从高到低排列,还需要用到order by desc;

     

    有的可能会使用order by配合limit来解决排名问题,然后再进行表关联选择同时满足条件的数据,都没有问题,但是逻辑上会更复杂一些,计算过程也会更多一些。

     

    二、1)数仓方面---数据集成使用的是什么工具?

    (2)如何实现增量,全量,实时抽取数据?

    (3)如果是flume实时抽取,请问数据源(source)是什么?

    (4)kafka连接sparkstreaming的方式?

    (5)如何保证sparkstreaming是不重复,不丢失的消费kafka的数据?

    (1)答:可能是封装的工具datax或者databirdge,也可能是flumekettle等开源工具

    (2)答:增量说到binglog日志读取,通过日期字段等方式即可,全量讲到sqoop即可,实时用fulme获取日网页埋点数据即可

    3)答:Source讲到log4j或者 nginx日志就可以

    4)答:Receiver模式或者Direct模式

    5)答:Kafka说到redis存储或者mysql存储即可

    三、做过哪些数据清洗,具体有什么规范吗?

    答:1.码表转换 2.字符串处理(如去空格,全角转半角)3.规范格式(如日期,身份证等)4.空白值填充(或者删除)5.错误值修正等

  • 相关阅读:
    转载--php函数使用--var_export
    ZkApi的方法跨域访问ZkResource的静态资源文件出现的问题
    修改html内联样式的方法
    linux下的npm安装
    爬虫之静态网页爬虫(基础知识)
    利用jQuery使用HTML的formdata属性实现文件上传
    细说form表单
    session
    cookie和session(会话跟踪)
    同源策略和跨域问题
  • 原文地址:https://www.cnblogs.com/jiangbei/p/14592560.html
Copyright © 2011-2022 走看看