1. 常用的归一化。各自的作用
机器学习-数据归一化及哪些算法需要归一化
2. KMeans的步骤以及其他的聚类算法
K-均值是因为它可以发现k个不同的簇,且每个簇的中心采用簇中所含值的均值计算
其他聚类算法:二分K-均值
讲解一下步骤,其实就是说明一下伪代码
随机选择k个点作为起始质心
当任意一个点的簇分配结果发生改变时
对数据集中的每个数据点
对每个质心
计算质心与数据点之间的距离
将数据分配到距其最近的簇
对每一个簇,计算簇中所有点的均值并将均值作为质心
二分K-均值:(基于SSE的划分)
该算法首先将所有点作为一个簇,然后将该簇一分为二。之后选择其中一个簇继续划分,选择哪一个簇进行划分取决于对其划分是否可以最大程度降低SSE的值
将所有点看成一个簇 当簇数目小于k时 对于每一个簇 计算总误差 在给定的簇上面进行K-均值聚类(k=2) 计算将该簇一份为二之后的总误差 选择是的误差最小的那个簇进行划分
3. 解释一下AUC以及AUC的取值范围
ROC与AUC
4. 解释一下ReLU函数的作用
激活函数的比较,sigmoid,tanh,relu
5. 降低过拟合的方法 6. L1和L2正则化的作用
如何防止过拟合
7. 随机森林、GBDT的优缺点
8. 开放性题目:五个参数:用户ID、时刻、经纬度、WIFI的个数、WIFI是否连接 label:用户此时的地点(100万个)也就是有100万个类
问如何实现?
博主觉得类别数目太多,分类算法应该不行。试试聚类算法吧。
9. 归一化对哪些算法有效?哪些无效? 10. 归一化为什么对随机森林无效?
机器学习-数据归一化及哪些算法需要归一化
11. 讲一个你最熟悉的项目
12. 还有比快排更快的排序吗?