zoukankan      html  css  js  c++  java
  • 校招准备-机器学习/深度学习/数据挖掘

    任务说明

    机器学习基本算法原理推到应用

     主要包括:算法的原理,损失函数,推导,优缺点,适用条件等基本知识,以及工程实现(单机,分布式,算法优化)包括算法的自己实现,与spark分布式实现,sklearn源码,等 [DT,KNN,LR,GBDT,RF等,SVM]系统的学习与整理

    涵盖 分类,回归,聚类,降维 四大主题:

    分类

    线性模型:LR,线性判别分析

    决策树:ID3,C4.5, CART树

    KNN:

    贝叶斯:朴素贝叶斯,贝叶斯网络,

    SVM:

    集成类方法:Bagging与随机森林;boosting,adaboost,gbdt,xgboost

    回归

    线性回归系列

    knn回归

    SVR

    CART树回归

    聚类: 各个算法的概念,使用,原理,实现(结合sklearn和spark) 都还没有深入的了解*   

    1.为解决基本问题,什么是聚类算法,输出你熟悉的几种聚类算法,比较其优缺点;

    2.查看各种机器学习书籍的课后习题! 

    (1/5)(时间:6.7上午了解各个算法,看了几篇综述;)

    基于划分的聚类 k-means和他的变体

    k-means简单快 速而 且 能 有 效 处 理 大 规模数据集 ,缺点对于噪声和孤立点敏感 ; 依赖于初始化的值, 可能陷入局部最优,可能需要多次初始化;需要给出K值

    PAM(kmediod)https://www.cnblogs.com/vpoet/p/4659734.html  对噪声不敏感,但是计算量大   https://blog.csdn.net/sinat_19596835/article/details/78303744

    CLARAPAM 方法相似,主要是为了减少pam的计算量 

    AP(Affinity Propagation) 也属于概率图聚类 亲密度传播聚类,不需要给定k值;  各类结构比较紧密时,算法能给出比较好的结果,但是在比较松散的情况下,算法倾向于参数较多的类来实现E(C)最大化,是的不太准确  

    高斯混合

    FCM 属于模糊聚类,

    层次聚类

    AGNES 

    BIRCH

    CURE

    ROCK

    密度聚类,

    DBSCAN 

    谱聚类

    降维

    PCA

    ICA

    数据挖掘

    预处理与可视化

    特征选择

    评价标准

    关联分析

    异常检测

    深度学习

    自编码机

    卷积

    RNN/LSTM

    数理基础

    概率统计相关基础

    最优化相关基础:常用的如LR的各种优化方法,DL的各种最优化方法 

  • 相关阅读:
    Is It A Tree?(并查集)(dfs也可以解决)
    【转】python中查询某个函数的使用方法
    python2和python3 print输出不换行
    Python在Windows下列出所有的安装包和模块
    构建打包发布模块及导入使用
    Python保存时提示“SyntaxError: Non-ASCII character 'xe8' in file”
    python基础学习(一)
    命令别名设定:alias,unalias 历史命令:history
    变量内容的删除、取代与替换(optional)
    变量键盘读取、数组与宣告:read,array,declare
  • 原文地址:https://www.cnblogs.com/bigjelly/p/9140634.html
Copyright © 2011-2022 走看看