面试清单
1.开场
1)简单自我介绍
2)课程、自学内容介绍
2.技术问
0)简历问题浏览
1)对大数据的了解、对数据仓库的了解
Java:
面向对象3个特征
1.==和equals的区别
== 对于基本类型来说是值比较,对于引用类型来说是比较的是引用;而 equals 默认情况下是引用比较,只是很多类重新了 equals 方法,比如 String、Integer 等把它变成了值比较,所以一般情况下 equals 比较的是值是否相等。
- 抽象类是什么?它与接口有什么区别?
抽象类是指不允许被实例化的类;一个类只能使用一次继承关系。但是,一个类却可以实现多个interface。
abstract class和interface所反映出的设计理念不同。其实abstract class表示的是"is-a"关系,interface表示的是"like-a"关系
实现抽象类和接口的类必须实现其中的所有方法。抽象类中可以有非抽象方法。接口中则不能有实现方法。但在Java8中允许接口中有静态默认的方法。
接口中定义的变量默认是public static final 型,且必须给其初值,所以实现类中不能重新定义,也不能改变其值。抽象类中的变量默认是 friendly 型,其值可以在子类中重新定义,也可以重新赋值。
子类中实现父类中的抽象方法时,可见性可以大于等于父类中的;而接口实现类中的接口 方法的可见性只能与接口中相同(public)。
用抽象类是为了重用。减少编码量,降低耦合性。
- 如何对集合进行去重,如何进行排序?
使用set()构造,使用重载的Collections.sort(List,Comparator)方法
1.Python如何实现集合去重?
2.如何反转一个字符串(abc)
a[::-1];''.join(reversed('123456789'))
3.python实践:统计一个文本中单词频次最高的10个单词?
PYTHON编程实践
统计一个文本中单词频次最高的10个单词?
import re class Solution(): def MaxWord(self,file_name): """ :param file_name: 文件名 :return: """ with open(file_name,'r') as file: for lines in file: lines=re.sub('W+',' ',lines) print(lines) dict_word={} for i in range(0,len(lines.split(' '))): word=lines.split(' ')[i] if word not in dict_word: dict_word[word]=1 else: dict_word[word]+=1 word_sorted=sorted(dict_word.items(),key=lambda x:x[1],reverse=True) for i in range(0,10): print(word_sorted[i]) if __name__=='__main__': solution=Solution() file_name='E:python_testexercise0406information.txt' solution.MaxWord(file_name)
大数据与SQL
MR基本过程,Combiner位置和作用
几种JOIN区别
Hive内部表外部表区别
一、使用过哪些数据库?(oracle,mysql,sqlserver等),那他们的SQL语句执行顺序是什么?
(1) from (2) on (3) join (4) where (5)group by(6) avg,sum....
(7)having (8) select (9) distinct (10) order by(11) limit
完整4道SQL面试题:http://www.itongji.cn/detail?type=99993193
- 现有如下学生成绩表st_score:学号,姓名,性别,成绩,课程(语文,数学,英语)
输出:学号,姓名,性别,语文成绩,数学成绩,英语成绩总共6列,每个学生一条记录,成绩出现重复时选最高成绩,按学号升序
参考代码
select st_id, name, gender, max(case when lesson = 'math' then score else 0 end) as mt_score, max(case when lesson = 'Chinese' then score else 0 end) as chi_score, max(case when lesson = 'English' then score else 0 end) as eng_score from st_score group by st_id,name,gender order by st_id;
解析
case when语句是本题的核心,也是行转列这类题目的核心部分,题目要求①要求一个st_id仅存在一条数据,所以这里还需要配合聚合函数使用,用case when语句作为子查询,主查询再进行合并也是可以的,只是会多一个步骤。
要求②中已经明确要求“成绩出现重复时选“最高成绩”,所以表中是有可能出现重复值的,这里只能使用max()函数,如果这里已经明确说明不会出现重复值,就可以用sum()、max()、min()这样的聚合函数。
2.现已将上表查询的结果保存为新表new_score,根据new_score表查询出满足以下条件的结果:学号,姓名,语文成绩,数学成绩,映月成绩,总分6个字段
①语数英三门课程的成绩都排在前五(包含第五);
结果按照总成绩从高到低排列
参考代码
select st_id, name, mt_score, chi_score, eng_score, total_score from ( select st_id, name, mt_score, dense_rank() over(order by mt_score DESC) as rn_math, chi_score, dense_rank() over(order by chi_score DESC) as rn_chi, eng_score, dense_rank() over(order by eng_score DESC) as rn_eng, mt_score + chi_score + eng_score as total_score from new_score ) t where rn_math <= 5 and rn_chi <= 5 and rn_eng <=5 order by total_score desc;
解析
本题考察的是窗口函数中row_number、rank、dense_rank的分辨和使用,根据本题要求②,这里需要使用dense_rank函数,并且顺序要从高到低排列,还需要用到order by desc;
有的可能会使用order by配合limit来解决排名问题,然后再进行表关联选择同时满足条件的数据,都没有问题,但是逻辑上会更复杂一些,计算过程也会更多一些。
二、(1)数仓方面---数据集成使用的是什么工具?
(2)如何实现增量,全量,实时抽取数据?
(3)如果是flume实时抽取,请问数据源(source)是什么?
(4)kafka连接sparkstreaming的方式?
(5)如何保证sparkstreaming是不重复,不丢失的消费kafka的数据?
(1)答:可能是封装的工具datax或者databirdge,也可能是flume,kettle等开源工具
(2)答:增量说到binglog日志读取,通过日期字段等方式即可,全量讲到sqoop即可,实时用fulme获取日网页埋点数据即可
(3)答:Source讲到log4j或者 nginx日志就可以
(4)答:Receiver模式或者Direct模式
(5)答:Kafka说到redis存储或者mysql存储即可
三、做过哪些数据清洗,具体有什么规范吗?
答:1.码表转换 2.字符串处理(如去空格,全角转半角)3.规范格式(如日期,身份证等)4.空白值填充(或者删除)5.错误值修正等