zoukankan      html  css  js  c++  java
  • R语言数据分析 听课笔记第一部分 问道

    R语言数据分析 听课笔记第一部分 问道

    第一部分就是方法论,包括前三章。
    第二部分就是工具,R语言,包括5 6 7 8 9章。
    第三部分就是具体的算法模型学习,包括10-14章。

    第一章 问道

    艾新波 北京邮电大学 副教授
    数据科学最令人着迷的地方:一旦进行量化,看似风马牛不相及的事物或属性,经过数学运算,居然可以画上等号,刻画各种各样的规律。

    第二章 所谓学习,归类而已

    课程主题,数据分析是主体,R语言是工具。
    数据挖掘,和机器学习,所涉及的内容基本上是一样的。就算法模型而言,这两者不需要区分。
    数据挖掘,就是数据管理技术和数据分析技术。数据分析,其实就是机器学习。
    所以本课程中,数据挖掘 数据分析 机器学习,这三个概念不做区分了。
    数据分析 约等于,认识数据+关联+分类+聚类
    机器学习的核心就是归类。因为机器学习,有监督学习--分类为代表,无监督学习--聚类为代表。因为分类,和聚类,都可以算作一种归类。
    机器学习,所能发现的规律/模型,本质上就是某种关系结构。
    有监督学习:映射关系
    无监督学习:距离关系
    机器学习的一般过程就是,“实事求是”,事就是数据,求就是算法,是就是模型。
    求模型的过程,与数学化归的思想如出一辙,化未知f为已知h,用已知逼近未知。
    所谓的机器学习,就是通过算法从模型集中选出一个最贴近观察记录的模型,用来表示我们想要的关系结构,要刻画贴近的程度,需要一个量化标准,我们称之为策略。所以,机器学习的三要素就是,算法、模型、策略。
    何为建模?模型真的是,一砖一瓦建立的吗?其实不是,其实更多是一个选模的过程。模型不在于构建,而在于选择。模型的选择,其实是一个优化的问题。
    建模好比是,量体裁衣。不同类型的模型集,每年都层出不穷(类似与不同类型的衣服款式层出不穷),款式(模型类)选定之后,显然要做的事情就是确定其参数(确定好参数,便拟合好了模型)。
    科学推理的方式,就是两种,归纳(从特殊到一般)和演绎(从一般到特殊)。
    所以机器学习的过程,是一个归纳的过程。归纳法,由于没有(或者无法)穷举考察对象的全体,因此它的结论带有猜想的性质,属于似真推理,或然性推理。将获得模型进行应用的时候,可以视为一种演绎的过程。
    格言联璧话学习

    1. 数学是宇宙的语言,这个世界真正的逻辑是概率计算。
    2. 相关并不意味着因果。
    3. 所有的模型都是错的,但是有些模型是有用的。
    4. 没有明确的证据表明,一个模型会优于另外一个模型。
    5. 成功的机器学习的应用,不是因为拥有最好的模型,而是拥有最多的数据。
    6. 特征选不好,参数调到老。
    7. 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限。
    8. 如何赢得机器学习的比赛,那就是把别人的模型拿过来然后集成在一起。
    9. 数据科学家就是一个比计算机科学家懂更多统计,比统计学家懂更多统计的人。
    10. 关键在于问题而非模型本身,数据科学家的基本素养,首先是业务敏感,其次算法老道,第三编程熟悉。

    第三章 源于数学,归于工程

    数学,是研究模式的科学。
    机器学习的两大视角:概率与几何
    通过一个监督学习的例子,可以发现,通过概率与几何的视角,就可以将诸多学习算法统一成一条线。
    理论是灰色的,而工程之树常青。唯有实践才是完整的,一个最小的工程,都有书本上的理论所覆盖不到的地方。要想找对的感觉,最好的方式就是在具体的情境中实践。多一些工程思维,由理性认识再次上升到感性认识。

  • 相关阅读:
    进程&多道技术
    linux 三大利器 grep sed awk sed
    linux 三大利器 grep sed awk 正则表达式
    cmd pyhton
    ConfigParser 模块
    几种数据类型的简单概念
    python基础关于字符串的常用操作
    寻租行为
    集约式发展 与 粗放式发展
    最小二乘法
  • 原文地址:https://www.cnblogs.com/songbiao/p/12423085.html
Copyright © 2011-2022 走看看