面试地点:网易游戏-广州
周日晚上看到有网易游戏的招聘启事,就投了一个简历过去。隔天看一下邮箱,发现周三有个笔试。然后这两天一直在学习数据挖掘(尽管不知道考什么)后来笔试的时候才发现!我复习的东西还是有点用处的~不至于全都不会考试题型为 单选,多选,sql,分析,挖掘,仓库,平台,NLP,爬虫。考察的算法不是很多,对游戏,用户的思考比较多。
现在做记录。
单选题
1.哪些是基于规则的分类器?
KNN?Bayes?ANN?C4.5?
2.K均值与DBSCAN比较?
我根本不知道什么是DBSCAN好吗!
3.数据粒度的性质
这个也不认识!
4.召回率 准确率
5.多元线性回归:某一x对其他x判定系数接近1 表明什么?
6.LR中的R2是什么?
7.X={1,2,3}可产生___个关联规则?
8,.有关数据仓库的开发特点
9.logistic可以做SVM的核函数吗?
10.什么办法可以减少过拟合
多选题
1.数据清理中处理缺失值的办法?
2.数据仓库的特点?
3.评价分类模型的尺度?
4.影响K均值的主要因素?(与样本数有没有关?
5.PCA的原理是?
小波分析怎么降维?
线性判别法?
线性判别法?
LASSO可以减少参数?
SQL
urs | login_time | hostnum | IP | ||
1 | ADmin | 2018-01-01 22:13:02 | 1 | 123.213.45.67 | |
2 | |||||
3 | |||||
4 | |||||
5 |
1)查询每天服务器的登陆次数和登陆人数
2)查询2018-01-01的登陆人数,且第三天还留着的。
分析题
如何划分用户群体?
哪些是核心群体?为什么?
第三问忘了
挖掘
忘了
仓库
考察数据仓库和数据粒度的基本概念
数据仓库分为哪些层?
等等
平台
用什么核心指标刻画用户特征与属性?
给出1000个异常用户的IP,如何在用户日志中(100G)用单机(2G内存)快速定位异常用户并计算特征?
NLP
论坛里面玩家会表达情绪和游戏诉求,那么文本挖掘分为几个模块?
爬虫
1)忘了
2)反爬虫的机制?