zoukankan      html  css  js  c++  java
  • 机器学习:一些感想

    1、我们有什么?

    我们有训练集:{x(i), y(i)}

    2、我们想要做什么?

    对于一个新的样本x输入进来,我们能够把y预测的准。

    3、问题有哪些?

    输出空间y:

      连续:回归问题

      离散:分类问题

    训练集:

      有监督:

      无监督:

      半监督:

    4、怎么做?

      构建目标函数:训练集合的后验概率最大P(Y|X)

      优化:梯度下降

    5、生成模型做分类?

      训练:每个类各自认为服从一个什么分布(高斯、泊松、beta),然后计算P(X|Y=k)的参数。

      预测:对于输入样本x,计算各个类的p(y|x)=p(x|y)p(y)/p(x),选择概率最大的y

      与判别模型的区别:直接计算p(y|x),生成模型时Baysian

    6、最大熵

    中午聊到最大熵,不好理解。

    我们的目标是什么?

    对于一个二类问题,对于一个特征x,我们想知道P{y=0|x}和P{y=1|x},然后选最大的作为x的分类结果。

    如果只追求最大熵,那么显然P{y=0|x}=P{y=1|x}=1/2熵最大。

    当然是有约束的,发挥训练集的作用,使得我们预测得到的分布P{y|x}与训练集的实际表现一致。

    也就是说,我们的模型在p(x,y)的联合概率上保持与训练样本一致,但是在训练集合之外,尽可能充分的随机,保证好的泛化效果

     7、svm

    如何确定参数搜索范围2^-8 2^+8

  • 相关阅读:
    python操作MongoDB
    MongoDB操作——备忘录
    python中运行js代码—js2py
    糗事百科爬虫_基于线程池
    糗事百科_基于队列和多线程
    Django ModelForm组件
    Django补充(mark_safe,url反向解析)
    Django MiddleWare中间件
    Python常用模块 -- sys模块的常用用法
    Python常用模块 -- os模块常用用法
  • 原文地址:https://www.cnblogs.com/zjgtan/p/3556818.html
Copyright © 2011-2022 走看看