https://baike.baidu.com/item/%E4%BA%AC%E4%B8%9C/210931?fr=aladdin#3
https://baike.baidu.com/item/%E6%90%BA%E7%A8%8B/3148245?fr=aladdin
分析工具:
(1)SQL
select from、where、group by、having、order by、limit
运算符(算数运算符+-*/、比较运算符><=、逻辑运算符not/and/or)
聚合函数(count、sum、avg、max、min)
函数(算术函数、字符串函数、日期函数)
谓词(like、between、is null、in)
子查询、嵌套查询、临时表、视图
集合运算(表的加减法、表联结)
case when、IF、@变量
(2)python
列表、元祖、字典、集合
if、while、for
函数、高阶函数
迭代器、生成器
类、继承、多态
正则表达式
(3)python for data analysis
numpy
pands
matplotlib/seaborn
scikit-learn
(4)数据结构与算法
搜索(二分)
排序(归并、快排、堆排)
递归(斐波拉契、回文)
最优化(背包、动态规划、贪心)
二叉树
(5)Linux
Bash shell
Awk
(6)大数据
hadoop原理
mapreduce原理
理论基础:
(1)统计概率
集中趋势(均值、中位数、分位数、众数)
离中趋势(切比雪夫定律、皮尔逊相关系数、协方差、方差、标准差、峰度、偏度)
概率(排列组合、加法公式、乘法公式、条件概率、独立事件、贝叶斯)
离散型概率分布(0-1/伯努利分布、二项分布、泊松分布)
连续型概率分布(正态/高斯分布、偏态分布、峰态分布、指数分布、β分布、γ分布)
极大似然估计、最大后验估计、中心极限定理、大数定律
假设检验(抽样、区间估计、参数估计、置信区间、P值)
方差分析/显著性差异(T检验、F检验、卡方检验)
蒙特卡罗、时间序列
(2)机器学习
代价函数(MSE、交叉熵损失)
梯度下降(随机梯度、小批量梯度)
极大似然估计
交叉验证(gridsearchCV)
模型评估(R2、RMSE、accuracy、Precision、AUC、ROC、F1 score)
模型融合(voting、averaging、bagging、boosting、stacking)
过拟合
正则化
预处理(标准化、归一化)
异常值检测
特征工程(embedding)
线性回归(lasso、ridge)
logistic回归(熵、基尼系数)
决策树/随机森林(ID3、C4.5、CART)
adaboost/gbdt/xgboost/lightgbm
感知机/SVM(凸优化、神经网络)
朴素贝叶斯
KNN(kd树)
k-means
PCA/SVD
推荐系统(关联分析Apriori、协同过滤)
应用背景
优缺点