zoukankan      html  css  js  c++  java
  • [读书笔记] 机器学习 (一)绪论

    主要符号表:

    $x$ 标量
    $mathit{x}$ 向量
    X 变量集
    $mathbf{A}$ 矩阵
    $mathbf{I}$ 单位阵
    $chi$ 样本空间或状态空间
       
    $D$ 数据样本
       
    $H$ 假设集
    $varepsilon$   学习算法
    $left |  cdot ight |_p $ $L_p$范数,缺省为2
    $supleft(cdot ight)$ 上确界
    $mathbb{I}left( cdot ight)$ 指示函数
    $signleft( cdot ight) $ 符号函数

    1.1 引言

    机器学习:通过研究计算的手段,利用经验改善系统自身特性。从数据中学习模型.

    1.2 基本术语

    data set: 数据集,一组记录的集合.

    instance: 示例,关于事件或者对象的描述

    attribute/feature: 属性/特征,反映事物或对象在某方面的表现或者性质的事项.

    attribute value: 属性的取值

    attribute/sample space: 属性空间,属性张成的空间.

    feature vector: 一个示例称为一个feature vector.

    dimensionality: 维数,每个示例由多个d个属性描述,则称样本维度为d.

    training/learning: 训练习得模型的过程

    training data: 训练过程中使用的数据

    training sample: 训练样本

    training set: 训练样本组成的集合

    hypothesis: 学习得到的模型关于数据的某种潜在规律.

    ground-truth:潜在规律自身

    label: 示例信息的结果信息

    label space: 标记空间/输出空间

    example: 拥有标记信息的示例

    classification:需要预测的值为离散值

    regression:需要预测的值为连续值

    clustering: 聚类

    supervised learning: 监督学习,分类和回归

    unsupervised learning: 无监督学习,聚类

    generalization:习得模型适用于新样本

    distribution: 样本空间样本服从的分布

    i.i.d: independent and identical distribution,独立同分布

    1.3 假设空间

    1. induction:归纳,特殊到一般,泛化generalization

      deduction:演绎,一般到特殊, 特化specialization

     2. 概念学习:

    1.4 归纳偏好

    1. inductiive bias:算法在学习过程中对某种类型假设的偏好

    2. Occam's razor:奥卡姆剃刀,一种常用的,自然科学研究基本原则,“若有多个假设与观察一致,则选择最简单的那个”.

    3.No Free Lunch Theorem 没有免费午餐——算法优劣比较

    在所有问题出现机会相同,或者所有问题同等重要的情况下,不同学习算法产生的误差相同。

    1.5 发展历程

    1. 20世纪五十年代到七十年代初“推理期“,A. Newell和H. Simon.

    2. 20世纪七十年代中期开始“知识期” E. A. Feigenbaum.

    3. 20世纪八十年代,符号主义学习:决策树,逻辑(如Inductive Logic Programming,知识表示能力强,学习过程中面临的假设空间过大,复杂度极高,问题规模稍大就难以进行有效学习).

    4. 20世纪九十年代中期之前,基于神经网络的连接主义学习,黑箱模型,学习结果对手动调参的依赖很大。

    5. 20世纪九十年代中期,statistical learning: SVM, kernel methods

    6. 21世纪初,连接主义卷土重来,深度学习,缺乏严格的理论基础. 原因:数据和计算能力.

    1.6 应用现状

    1. 交叉学科,数据获取,数据管理,数据分析

    2. 2006年T. Mitchell在CMU成立世界上第一个机器学习系。

    3. 美国国家科学基金会在加州大学伯克利分校启动加强计划,研究大数据时代三大关键技术:机器学习,云计算,众包(crowdsourcing).

    4. 数据挖掘:统计学,数据库,机器学习。

    参考资料:

    1. T. Mitchell当年为在CMU建立机器学习系给校长写的信.

    http://www.cs.cmu.edu/~tom/pubs/MachineLearning.pdf

  • 相关阅读:
    转载——rdis安装yum版本
    Lc28_strStr kmp字符串匹配
    关于 哈希的总结
    Lc344_反转字符串
    Lc383_赎金信
    Lc454_四数相加 II
    Lc1_俩数之和
    推荐4款个人珍藏的IDEA插件!帮你写出不那么差的代码
    ZUC-生成随机序列
    移位运算
  • 原文地址:https://www.cnblogs.com/vincentcheng/p/6920203.html
Copyright © 2011-2022 走看看