zoukankan      html  css  js  c++  java
  • 机器学习

    一 对数回归

      全称为对数几率回归,其它文献也称为 线性回归。

      虽然称为回归,但实际是分类算法。

      本质是广义线性模型。通过sigmoid函数(联系函数),将回归模型的预测值与分类的真实标记联系起来。

      只适用于二分类?

      多分类情况 采用 OvO或者OvR策略解决。

      类别不平衡问题 采用 再缩放 (rescaling) 策略解决

        欠采样 -- EasyEnsemble

        过采样 -- SMOTE

    一.五

      线性回归,配合多项式扩展+正则化,好像是无敌的。确实能很好的拟合测试集,但在验证集上表现不一定好。是不是配合验证曲线 来选择呢。

    二 线性判别分析 LDA

      可以适用于多分类。

      属于有监督线性降维方法。与之相对的是无监督线性降维,其中之一就是PCA(主成分分析)

    三 决策树

      划分指标

        信息增益 -- ID3

        增益率  -- C4.5

        gini index 基尼指数 -- CART决策树 classification and regression tree的缩写

      适用于离散值,也适用于连续值。连续值的策略是取 n-1 个划分点。 --> 分类

      也可以处理缺失值,牛逼。起码C4.5是可以的。

      过拟合处理策略

        剪枝

          预剪枝

          后剪枝

      扩展:多变量决策树

            本质是对变量进行线性组合

            算法:OC1

    四 贝叶斯分类器

      原理:通过先验概率,似然(类条件概率)求得后验概率的具体值,根据概率值判定哪种情况更有可能发生。

      应用场景:

        文章推荐   ω为是否推荐给用户

        文章分类   ω为文章类型,体育,经济,娱乐,

        晴天,逆风,等条件情况下是否打网球  ω为是否打网球

        在模式识别,信息检索,机器学习等领域有着极为重要的作用。

      分类

        朴素贝叶斯 

          基于 属性条件独立性假设。

          避免因训练集样本不充分导致概率估值为零,采用拉普拉斯修正。

        半朴素贝叶斯分类器

          独依赖估计 ODE

        贝叶斯网

        EM算法

        

    五 人工神经网络

      感知机

        本质是线性分类器(参数=2),超平面(参数>2)

      BP算法(误差逆传播算法)前馈型网络

      Hopfield Networks

    六 支持向量机((SVM)

      1 本质是线性分类器和超平面

      2 思路是将线性不可分的样本映射到高维特征空间,通过kernel trick 解决高维计算爆炸问题。

      3 核函数

        线性核,在文本分类领域,线性核SVM是第一考虑算法。若将每个单词作为文本数据的一个属性,则该属性空间维数很高,冗余度很大,其描述能力        足以将不同文档打散.

        多项式核

        高斯核

        拉普拉斯核

        sigmoid核

      4 支持向量回归 SVR

      5 软间隔和正则化

    七 聚类

      不同的预处理对聚类的结果影响很大。

      根据簇类类型(整个簇集通常称作簇类)

        划分

        层次

          AGNES

      根据簇类型

        基于原型

          K-means  

        基于密度

          DBSCAN。

            核心点,边界点,噪点

            聚类的结果更符合人眼的印象。适合应用于不规则图形。

        基于模型

          高斯混合聚类

            采用EM算法(期望最大化算法)进行迭代优化求解。

              通过迭代,E步,M步,直至收敛到局部最优解。

    八  关联分析

      频繁项集

      关联规则

      支持度(support)  本质就是概率

      置信度(confidence)  本质就是条件概率

      

      应用场景:

        商店购物推荐,比如你网页浏览的一个kindle,刷新页面会推荐kindle其它系列的产品或相关的产品

        文本分析

          将每个单词看最一个商品,哪两个单词一起出现的概率比较高,谁的置信度又比较高

      误区

        1 A->B 的置信度为60% ,能否说明A和B为强相关吗?不能,还要看先验概率,B本身的概率。即看A->B的置信度是否大于B自身的概率

        2 P(Bread|Battery) > P(Bread) 能否说明bread和battery强相关吗?  不一定,看两者数量级是否差异过大,即是否是非对称的。

      apriori算法  十大数据挖掘算法

    九 推荐算法

      TF-IDF

      LSA 隐含语义分析 比tf-idf 更吊一些

      Page Rank

      collaborative filtering

      

     

    十  集成学习  ensemble learning 

      bagging(parallel)

        适用于二分类,多分类,回归。

        分类任务--简单投票法

        回归任务--简单平均法

        random forests

          随机森林在以决策树为基学习器构建Bagging集成的基础上,进一步在决策树的训练过程中引入了随机属性选择。

          特征随机选择k个,推荐k=㏒2 k 

          每个训练样本通过bootstrap方式取得 

          解决了如何选取特征,如何选取样本的问题

      boosting(sequential)

        有权重的投票

        adaboost

          标准adaboost只适用于二分类。

        regionboost  

          相比较adaboost,在测试集上表现更好。

    十一 特征选择

      过滤式  

        Relief

      包裹式

        LVW

      嵌入式

        

  • 相关阅读:
    我的编辑辅助工具
    一点BREW开发的资料
    XCode 4.2.1 (iOS SDK 5.0) for Lion
    C Style SEH handling Example
    OWC中双刻度图表的实现(转自网络)
    浅谈MAXIMO项目实施(转)
    GridView 72般绝技
    MAXIMO表学习总结(转)
    一SQL语句.
    网站根目录下的 cert/ 目录中有bazs.cert文件,可是http://网站地址/cert/bazs.cert 就是提示HTTP 404 的解决方法
  • 原文地址:https://www.cnblogs.com/654321cc/p/13118183.html
Copyright © 2011-2022 走看看