增长和风控技术部
面试官先做了自我介绍,是个温柔又犀利的小姐姐,先是祝贺我通过了一面,说再坚持两轮。然后自我介绍
然后因为一面的时候问了distinct我不会,二面姐姐问我会了吗,和一面也有讨论和你说了记得看一下,看你有没有看(确实是没想看,侥幸心理,一心看XGBoost去了)
大数据的基本架构(直接不会。。。)
sql中列出有重复值表中的不同值distinct(答案:
SELECT DISTINCT 列名称 FROM 表名称
)
快排
二叉树有几种遍历情况,根据先序和中序构造二叉树或输出某个节点,说一下过程没有让写代码(感谢)
面试官不知道该问什么了
然后问了简历的第一个项目,年收入预测(这个年代久远也是侥幸心理没有回顾),先介绍一下背景,实现过程,难点和解决办法等
对于特征是怎么处理的,缺失值,异常值
k值的选取,过大过小会怎么样(答案:K值的减小就意味着整体模型变得复杂,容易发生过拟合。如果选择较大的K值,就相当于用较大领域中的训练实例进行预测,其优点是可以减少学习的估计误差,但缺点是学习的近似误差会增大;实际应用中,K值一般取一个比较小的数值,例如采用交叉验证法(简单来说,就是一部分样本做训练集,一部分做测试集)来选择最优的K值。)
怎么判断某个特征不重要
pandas中的DataFrame是什么类型,series是什么类型(答案:DataFrame是表格型数据结构,可以单独创建,也可以由别的类型转换过来:列表、series、字典等等。Series类似于1维数组,由索引+数值组成)
(很可惜没有录音,希望以后可以有机会进去体验和共事)
面试官姐姐最后聊了一会儿天,讲了实际业务和学习能力,说可能他们那里的业务工作不适合去为了学习而学习,但也不是学不到东西,只是说适不适合,未来的规划balabala。总之很醍醐灌顶的感觉。包括她有和一面面试官讨论过我哪里不足,二面看一看有没有去补充完善。像是机器学习这一点已经很是体系化,任何一个小白都可以调用一个模型去实现功能,像是数据量的由来,也不是说等着别人给,实际业务中都是自己或团队去收集处理。……