作者:Vamei 出处:http://www.cnblogs.com/vamei 欢迎转载,也请保留这段声明。谢谢!
数据科学最近成为计算机的热门领域。数据科学是利用计算机的运算能力对数据进行处理,从数据中提取信息,进而形成“知识”。它已经影响了计算机视觉、信号处理、自然语言识别等计算机分支。数据科学已经在IT、金融、医学、自动驾驶等领域得到广泛使用。(如果你熟知中情局的棱镜泄密事件,你会发现数据科学已经在情报领域广泛使用。)
在这系列文章中,我希望能完成从概率论,统计,到机器学习的整个数据分析的链条。传统意义上的数据处理是用统计方法实现的,而概率论是统计的基础。随着计算机处理能力的增强,一些需要大量运算的数据分析方法得到快速发展。机器学习实际上是一个混合体,包括一些在计算机领域中发展的算法,也包括一些传统统计中已经存在,但受限于计算能力的统计方法。另一方面,从数据中提炼知识是机器学习的主要目的,这与统计推断密切相关。因此,从传统的概率和统计出发,更容易理解机器学习的内涵。
当然,这样做的困难之处是要覆盖许多内容。严格的叙述有时会显得比较无聊。我会尽力引入实用的编程例子,以便能形成更好的触觉。编程工具会以Python语言为主,配以第三方的包,如Numpy, Scipy, Matplotlib, scikit-learn。统计和机器学习同样可以在其他语言中实现,比如Matlab和R语言。如果你熟悉相应的工具,不难写出类似功能的代码。
概率论
统计基础
数据描述
参数估计
区间估计
假设检验
线性回归
ANOVA
无参估计
贝叶斯方法
多变量数据
线性代数基础
PCA分析
时序分析
机器学习
监督学习
无监督学习
绘图工具
1) matplotlib:
参考书籍
见豆列