学习方面的问题
Q1:计算机专业本科生,非ACMER。算法达到什么程度才算是合格,有什么量化手段吗?
Answer:传统算法和数据结构功底扎实。比如LintCode上的题目简单和中等难度毫无压力做出,Hard难度在给了一定时间和一定提示时可以独立完成。
微积分,统计学,离散数学
Q2:成为数据挖掘工程师有必要要搞编程竞赛吗?现在大二,之前没有接触过竞赛
Answer:数据挖掘的话是Kaggle,KDD的竞赛
Q3:数据挖掘一定要学spark吗
Answer:Python是刚需,Spark可以到用的时候再学
Q4:怎么练习普通算法呢,看算导刷oj吗?
Answer:分为两步:第一步是模块化训练,比如专门做图论和动态规划的题。第二步是在LintCode上随便选择一个题,不看标签,独立做出。
Q5:有一定高等数学基础和机器学习算法概念的小白,如何进行实战训练。
Answer:分为两步:第一阶段是参加Kaggle,KDD竞赛。第二阶段是学习爬虫,自己爬取电商,微博等数据,做训练
Q6:作为一个数据挖掘工程师,还有没有必要深入研究传统的算法,还是重点关注机器学习等统计的算法?
Answer:重点关注机器学习等统计的算法,这两种有很大的不同
Q7:请问算法工程师和数据挖掘 data scientist 等岗位在技能要求和工作内容方面有什么区别吗?
Answer:中小厂不区分。大厂可能会区分。算法工程师更底层一些,关注算法模型的开发和调优,数据挖掘更侧重模型的建模和使用,应用和业务方面。
Q8:传统的数据结构和算法是否对于机器学习是有必要的?如果有,主要体现在什么地方?
Answer:首先传统的数据结构和算法可以锻炼计算机思维,其实具体的数据结构和算法还是会用到的,比如搜索query时词之间关系,可以用字符串的距离,动态规划,字典树等
技术问题
Q1: 假设数据集有商店id这个属性,取值上千个,把它做OHE后去学习,虽然结果提升了,但维度增加了很多。但不做OHE,用分类树去学习,结果并不好,可以有什么方法缓解数据集的扩大与最后结果的技巧吗
Answer:这是特征工程中非常典型的问题,OHE后有可能会过拟合, 商店间有相似性,量化后对商店进行聚类,再用这些类去做分类的训练
---------------------
作者:Emily Du
来源:CSDN
原文:https://blog.csdn.net/duxinyuhi/article/details/53788200
版权声明:本文为博主原创文章,转载请附上博文链接!