zoukankan      html  css  js  c++  java
  • 数据开发_机器学习

    基本问题

    什么是机器学习?
    
    机器学习要解决哪些问题?
        从复杂和海量的数据中获得洞见
    
    
    机器学习的步骤有哪些?
    

    基础

    机器学习的基本概念,原理以及基本方法以及基础能力
    
    基本概念
       属性 值  特征 
       训练集和测试集  验证集
       特征提取 特征变换 
       模型-- 模型是观察的简化
       监督和非监督学习:监督学习 半监督学习 无监督学习 强化学习
       在线学习和离线学习--是否可以增量学习
    

    是否监督

    监督学习
        线性回归 逻辑回归
    	K近邻 支持向量机  决策树  随机森林 神经网络
    半监督学习
        深度信念网络 DBN  --受限玻尔兹曼机RBN
    无监督学习  
        聚类算法 K-Means  EM  分层聚类算法
    	降维算法 PCA kernel_PCA
    	可视化   t-SNE
    	关联规则 Apriori  Eclat
    	异常检测
    强化学习  
        策略 执行 获得奖励或惩罚  升级策略
    

    数据

     离线学习:学习过程在批量数据时,应用时,学习停止-- 需要不断训练新版本
     在线学习:--
    全量学习和增量学习
    

    泛化方式

    基于实例: 基于学习示例,通过相似度等泛化到新的示例
    基于模型: 构建模型,利用模型进行预测
    

    模型

    模型参数和学习算法的超参数
    

    步骤

     学习数据-选择模型-训练模型-应用模型-评估模型
     
     评估模型- 测试与验证   训练误差和泛化误差 以及验证假设
    

    主要的问题

    数据: 训练样本不足  训练样本不具有代表性  无关特征    质量差的数据
    模型: 过拟合 欠拟合
           过拟合: 模型在训练数据上表现良好,泛化效果比较不是很好
    评判: 性能指标: 均方根误差  平均绝对误差
    	   
    参考方法“ 
        提供更好的特征, 
    	选择更多参数/更强大的模型  
    	减少模型中的约束
    

    实际操作

     Pipeline 数据流水线
    

    参考文献

         机器学习实战 Hands-on mechine Learning with
  • 相关阅读:
    SQL Server事务、视图和索引
    软件系统的分层开发
    OOP应用:实体类
    Oracle/MySql/SQL Sqlserver分页查询
    数据库连接语句
    SQL连接查询
    MySQL基本手册
    C# 其他
    numpy的loadtxt()用法
    Pytorch从一个输入目录中加载所有的PNG图像,并将它们存储在张量中
  • 原文地址:https://www.cnblogs.com/ytwang/p/14361084.html
Copyright © 2011-2022 走看看