zoukankan      html  css  js  c++  java
  • 机器学习讨论组纪要1

    机器学习分类

    精确学习  符号学习: 例子: 爸爸*爸爸=爷爷。 80 90 年代研究热点。现在基本已经不再研究。

    模糊学习 归纳,基于数据做统计。因为大数据技术的发展而变得火热。

    模糊学习的分类

    数据-归纳,训练-模型-对新的数据,得出结论

    督导学习 无督导学习

    督导学习 标记

    无督导 聚类 

    常见的机器学习的方法

    线性回归是最基本的机器学习算法

    房屋面积 房价  一组数据。 给出新的房屋面积,预测房价

    回归与分类 

    Regression Classification

    逻辑回归(分类) 置信度 

    线性回归可以通过sigmoid与逻辑回归统一起来。

    神经元:每一个神经元就是一个线性回归函数。

    神经网络:神经元连在一起就是神经网络

    深度学习: 神经网络的层数,一般的机器学习的神经网络的层数大概在3 4 层,而深度学习的深度神经元网络可以达到70 80 层,仅模型本身,就可以达到几个G的大小。 

    神经网络,根基还是线性回归

    决策树

    概率方法 : 贝叶斯网络?

    简单的机器学习case 

    email 优先级判断问题:

    线性可分问题,也就是说很多问题可能不是一个线性回归可以解决的问题:

    feature维度越高,越大可能线性可分。

    可以采用online逻辑回归算法(PA2),判断email是否是高优先级的。

    一个common的问题:如何针对不同的场景(输入数据的特点),选择不同的机器学习的算法?

    feature生成 选取 ,目前还是依赖于人的直观选择

    但是这些选取的feature维度可以使用一些方法进行处理,比如:升维度 降维度(防止过度拟合,把相近的feature cluster) 离散化(年龄划分为青年中年老年等)

    模型的调优

    训练集 验证集 测试集

    调优的指标:

    查准率 查全率 误分类代价

    有了模型,才可以真正进行code层级的机器学习,从而涉及到下面的问题:

    编程语言?机器学习平台

    常见的平台:Spark MLlib

    常见的语言:Scala Java python R

    -------------------------- update -----------------------

    与王刚的讨论:

    现在大数据与机器学习的研究,主要分成了数据挖掘和机器学习两个部分。

    现在对人工大脑的研究,主要集中在了深度神经元网络上。

  • 相关阅读:
    oracle 释放表空间到OS(resize)
    dblink查找对应的目标端session
    oralce move和shrink释放高水位
    使用ogg实现oracle到postgresql表的实时同步
    oracle_fdw的安装和使用
    postgresql数据库升级
    ORA-00054: 資源正被使用中, 請設定 NOWAIT 來取得它, 否則逾時到期
    贪心算法应用-哈夫曼编码
    9 深拷贝学习
    8 标准库C文件
  • 原文地址:https://www.cnblogs.com/hzg1981/p/5718501.html
Copyright © 2011-2022 走看看