1.python中的生成器
不可变数据类型。
2.非结构化的数据信息,如何实现高效的信息抽取?
3.拿到的数据是没有标签信息的,应该怎么办?
4.进行一个分类任务,某些数据有缺失值怎么办?
文本为Nan,有标签,①赋值为“缺失”,②统计缺失的类别
数据插补方法?
5.特征值变换到0-1的方法,归一化方法?为何进行归一化
//忽然一下子0-1,我还真反应不过来啊。。。
5.特征工程了解
6.Spark, Hadoop了解吗?
7.缓解过拟合的方法有哪些?从特征的角度如何做?
8.特征离散化?
9.哪些模型不用做归一化?
//还有可以不用归一化的模型?
10.如果NN里只有RELU,可以拟合任何分布吗?
//relu是分段线性,可以吗?我不清楚。
11.一个文档中里有很多图片和一些短文本,如何获取有用的信息?
//这个很像我之前做的那个微博文本分类的模型,但是我没有考虑过如何从图片中获取信息,那是否就涉及到CV了呢?不太清楚。
这个就涉及到多模态学习了吧?但我一点点都不了解。
12.讲讲Dropout,为何有效?
13.多任务学习,多模态学习
14.谈谈你对NN的理解,为什么NN的表现这么好?
//我真的很害怕这种“谈谈”“讲讲”的问题,你说从哪说起呢????从哪几个比较重要的方面来谈谈才能显得自己理解的全面又深刻呢?
//感觉这种题肯定要提前准备的,不然肯定说的五花八门十面埋伏地,就是会很乱吧。
6-21更新————————
https://www.zhihu.com/question/41233373
15.传统机器学习考察点:
1、bias与variance的含义,并结合ensemblemethod问哪种方法降低bias,叨舯方法降低
varlance
2、|r与svm的区别与联系
3、gbdt与adaboost的区别与联系
4、手frsvm,svm麻雀虽小石且庄俱全
5、pca与da的区别与联系,并推导
6、白化的原理与作用
7、给一个算法,例如的问这个算法的model、evaluate、optimization分别是啥
16.深度学习考察点
1、手推BP
2、梯度消失/爆炸原因,以及解决方法
3、bn的原理,与白化的联系
4、防止过拟合有哪些方法
5、dnn、cnn、rnn的区别与联系
6、机器学习与术度学习的联系
7、batchsize大小会怎么影响收敛速度
17.最优化考察点
1、sgd、momentum、rmsprop、adam区别与联系
2、深度学习为什么不用二阶优化
3、拉格朗日乘子法、对偶问题、kkt条件
18.coding考察点
排序、双指针、dp、贪心、分治、递归、回溯、字符串、树、链表、trie、bfs、dfs等等