zoukankan      html  css  js  c++  java
  • 机器学习基石笔记-Lecture 10 Logistic regression

    soft binary classification的概念:软二分类,不直接化为-1、1,而是给出一个概率值。

    目标函数是一个概率值,但是拿到的data中y只有0、1(或者-1、1),可以看做是有noise的data。

    logistic hypothesis

    通过 theta 转化为 0、1间的数。

    目标函数f(x)其实呢就是,那么

    那么对N个样本,产生的概率是

    对于f的估计h,似然函数为

    那么有:

    使

    用w替换掉h,即求w的极大似然估计

    化简后等价于

    最后的Ein就是cross-entropy error

    接下来要做的事就是找到一个w使得Ein最小。

    注意到Ein是连续的、可微的、凸函数,所以对w求偏导能得到最优解。(与linear regression思路一样)

    但是 最后偏导出来的不是一个一次方程,不能像linear regression那样直接写出解。

    gradient  descent

    想象成下山,每次探索的结果只要比现在的低,就走出去。在步长固定时,当前点的负梯度是下降最迅速的方向。

    一阶泰勒展开

    确定了下降的方向后,再考虑走出的步长。步长过大或过小都不好,我们希望在梯度比较大的时候步长稍微大一点,平缓的时候步长小一点。其实就和正相关。

    它们的比例系数 叫做学习率。

    学习过程

    注意这里算法终止的条件是梯度足够小或者迭代达到最高次数。

    梯度下降法每次计算在 w_t的梯度时,需要将n个点都计算一遍 然后求平均值

    stochastic gradient descent

    在样本量很大时,梯度下降法每次迭代都要计算n各点对梯度的贡献。

    随机梯度下降法在更新w时,只随机选取一个点计算,当做梯度替代 n个点的平均

    logistic regression:

    优点:计算代价不高,易于理解和实现。

    缺点:容易欠拟合,分类精度可能不高。

    适用:数值型和标称型数据。

  • 相关阅读:
    Gentoo 使用genkernel之后,修改了kernel,重新编译kernel和生成initramfs
    如何让git自动在commit message中加入你需要的sob?
    Gentoo:请安装bashcompletion package
    Kernel开发 SubmittingPatches,有关ifdef和static inline & macro
    Kernel开发 Thunderbird配置 From kernel documentation
    Gentoo 添加gentoozh overlay
    linux把文件压缩成.tar.gz的命令
    redhat下装ftp服务器(vsftpd)
    GDB调试精粹及使用实例
    linux中常用的头文件
  • 原文地址:https://www.cnblogs.com/akanecode/p/7054633.html
Copyright © 2011-2022 走看看