最近不少朋友问到数据挖掘怎么入门,要看什么资料,
就想写一篇文章介绍一下入门步骤和资料,基本上下面的步骤是按顺序的,时间方面个人感觉至少需要小几个月
基础知识:
- 线性代数
- 统计学
- 计算机技术
基本上这些东西不说熟悉,至少也要有点概念,或者是大学有上过对应的课程,不需要特别准备。
推荐书籍和资料:
视频:
- Coursera Machine Learning by Andrew Ng 作为入门还是不错的,而且对于初学者而言,视频比较容易理解
中文:
- 《数据挖掘概念与技术》 这本书我自己也挺喜欢的,适合初学者,涉及的面比较多,不过不够深入 (备选:《数据挖掘导论》)
- 《数学之美》 介绍了一些挺有意思的东西
英文:
- PPT by Tan, Steinbach, Kumar 我这边上传了PDF版本
- Pattern Recognition And Machine Learning 很多人推荐的一本书了,就是没有中文,而且难度有点大 (可以慢慢看)
实践:
了解了数据挖掘是怎么回事以后,最好的学习办法就是开始实战,如果公司里面没有类似的项目,那么可以考虑去以下网站参加比赛,重在参与和学习
其他常用资料和网站:
数据挖掘工作中可能涉及到的技能和工具:
- 业务知识
- 数据清理和准备 (例如说sql server)
- 建模和分析工具 (例如说R, Weka)
- 算法和方案
- Demo (PPT)
- 大数据处理 (Hadoop/Mahout)
- Coding (不管是自己做一点处理还是最终把产品带上线,都需要一些coding的能力)