zoukankan      html  css  js  c++  java
  • 机器学习算法的流程总结

    • 应当选择哪一种距离度量方式?KNN K值如何确定?也即如何确定超参。
      • problem-dependent,具体问题具体分析;
      • try what hyperparameters work best on test set.
        • 并非是一个好主意,测试集(模型还未见过的数据)最好的用途在于作为模型泛化能力的评价,应当十分节俭地使用;

    0. 数据集的切分

    可采用如下方式对数据集进行切分:




    1. NN ⇒ Classification

    注意区分,NN(Nearest Neighbor)和 KNN,前一个是最近邻,后一个是前 K 近邻;

    • train(X, y):无序训练,模型不需要参数
    • predict(X):逐一计算和训练集 X 每一个元素距离的大小,
      取最近的元素的 label,作为自己的 label

    分类的速度随着训练集规模的变化:Linearly;对于现实应用而言,test 的时间性能更为看重。CNN 的一大好处就在于,

    • expensive training
    • cheap test evaluation
  • 相关阅读:
    Linq101-Generation
    Linq101-Element
    解决 oracle 错误ORA-01033
    Oracle数据表恢复
    C++构造函数
    C++类与对象
    CMake命令之export
    CMake命令之install
    CMake变量(提供信息的变量)
    CMake常用变量
  • 原文地址:https://www.cnblogs.com/mtcnn/p/9423176.html
Copyright © 2011-2022 走看看