任务说明
机器学习基本算法原理推到应用
主要包括:算法的原理,损失函数,推导,优缺点,适用条件等基本知识,以及工程实现(单机,分布式,算法优化)包括算法的自己实现,与spark分布式实现,sklearn源码,等 [DT,KNN,LR,GBDT,RF等,SVM]系统的学习与整理
涵盖 分类,回归,聚类,降维 四大主题:
分类
线性模型:LR,线性判别分析
决策树:ID3,C4.5, CART树
KNN:
贝叶斯:朴素贝叶斯,贝叶斯网络,
SVM:
集成类方法:Bagging与随机森林;boosting,adaboost,gbdt,xgboost
回归
线性回归系列
knn回归
SVR
CART树回归
聚类: 各个算法的概念,使用,原理,实现(结合sklearn和spark) 都还没有深入的了解*
1.为解决基本问题,什么是聚类算法,输出你熟悉的几种聚类算法,比较其优缺点;
2.查看各种机器学习书籍的课后习题!
(1/5)(时间:6.7上午了解各个算法,看了几篇综述;)
基于划分的聚类 k-means和他的变体
k-means简单、快 速而 且 能 有 效 处 理 大 规模数据集 ,缺点对于噪声和孤立点敏感 ; 依赖于初始化的值, 可能陷入局部最优,可能需要多次初始化;需要给出K值
PAM(kmediod)https://www.cnblogs.com/vpoet/p/4659734.html 对噪声不敏感,但是计算量大 https://blog.csdn.net/sinat_19596835/article/details/78303744
CLARA和 PAM 方法相似,主要是为了减少pam的计算量
AP(Affinity Propagation) 也属于概率图聚类 亲密度传播聚类,不需要给定k值; 各类结构比较紧密时,算法能给出比较好的结果,但是在比较松散的情况下,算法倾向于参数较多的类来实现E(C)最大化,是的不太准确
高斯混合
FCM 属于模糊聚类,
层次聚类
AGNES
BIRCH
CURE
ROCK
密度聚类,
DBSCAN
谱聚类
降维
PCA
ICA
数据挖掘
预处理与可视化
特征选择
评价标准
关联分析
异常检测
深度学习
自编码机
卷积
RNN/LSTM
数理基础
概率统计相关基础
最优化相关基础:常用的如LR的各种优化方法,DL的各种最优化方法