zoukankan      html  css  js  c++  java
  • 课程三(Structuring Machine Learning Projects),第一周(ML strategy(1)) —— 1.Machine learning Flight simulator:Bird recognition in the city of Peacetopia (case study)

    []To help you practice strategies for machine learning, the following exercise will present an in-depth scenario and ask how you would act. Consider airplane pilots who’s training involves time spent in flight simulators. These flight simulators accelerate the pilots’ learning by allowing them to experience a volume and variety of scenarios that they otherwise may have needed a much longer time to acquire.

    The following exercise is a “flight simulator” for machine learning. Rather than you needing to spend years working on a machine learning project before you get to experience certain scenarios, you’ll get to experience them right here.

    Personal note from Andrew: I’ve found practicing with scenarios like these to be useful for training PhD students and advanced Deep Learning researchers. This is the first time this type of “airplane simulator” for machine learning strategy has ever been made broadly available. I hope this helps you gain “real experience” with machine learning much faster than even full-time machine learning researchers typically do from work experience.

    【中文翻译】

    为了帮助您练习机器学习的策略, 下面的练习将呈现一个 in-depth 的场景, 并询问您将如何行动。考虑飞机驾驶员的训练需要花费时间在飞行模拟器上。这些飞行模拟器加速了飞行员的学习, 使他们能够体验到他们可能需要更长时间才能获得的大量和不同的场景。

    下面的练习是机器学习的 "飞行模拟器"。你需要花费数年的时间在一个机器学习项目,你才能体验到的,在这里你会体验到他们。

    Andrew的个人笔记: 我发现练习这种情景对培养博士生和高级深度学习研究人员是有用的。这是第一次这种类型的 "飞机模拟器" 的机器学习策略广泛提供。我希望这能帮助你获得 "真正的机器学习经验" ,甚至比全日制机器学习的研究人员从通常做的工作中获得经验快得多。

    ------------------------------------------------------------------------------------------------

    Bird recognition in the city of Peacetopia (case study)

     

     【中文翻译】

    1、问题陈述

    这个例子是从一个真正的生产应用, 但细节伪装, 以保护机密。

    你是 Peacetopia 市的著名研究员。Peacetopia 的人有一个共同的特点: 他们害怕鸟。为了救他们, 你必须建立一个算法, 将检测任何鸟飞越 Peacetopia 并向人们警报。

    市议会给你一个数据集, 上面有1000万张 Peacetopia 上空的天空图像, 取自城市的安全摄像头。它们被贴上标签:
      y = 0: 在图象中没有鸟
      y = 1: 在图象中有一只鸟
    你的目标是建立一个算法, 能够分类安全摄像头从 Peacetopia 拍摄的新的图像。
    有很多决定要做:
      评估指标是什么?
      如何将数据分为训练/开发/测试集?
     
    成功指标
    市议会告诉你以下, 他们想要一个算法,
      具有高精度
      快速运行, 只需很短的时间就可以对新图像进行分类。
      可以容纳进少量的内存, 以便它可以运行在一个小的处理器, 城市将它们附加到许多不同的安全摄像头。
     题目: 有三评估指标使您很难在两种不同的算法之间快速选择, 并且会减慢团队迭代的速度。真/假? (A)
    (A)真
    (B)假

     【中文翻译】

    根据城市的要求, 你认为下面哪一个是真的?(A)
     A、精度是一种优化指标;运行时间和内存大小是一个满足的指标。
     B、准确度是满足的指标;运行时间和内存大小是一个优化指标。
     C、准确性、运行时间和内存大小都是最优化的指标, 因为您希望在所有三中都做得很好。
     D、准确性、运行时间和内存大小都是满足的指标, 因为您必须在所有三中做得足够好, 您的系统才能被接受。
     

    【中文翻译】

    在设置好你的训练/开发/测试集之后, 市议会会遇到另外100万个被称为 "公民数据" 的图片。显然, Peacetopia 的公民们非常害怕鸟类, 他们自告奋勇地拍下天空的照片并给它们贴上标签, 从而为这些额外的100万图像提供了帮助。这些图像不同于城市议会最初给你的图像的分布, 但你认为它可以帮助你的算法。
     
    您不应将公民的数据添加到训练集, 因为这将导致训练和开发/测试集分布变得不同, 从而损害开发和测试集的性能。真/假?(B)
    A、真
    B、假

     

    【中文翻译】
    市议会的一位成员对机器学习知之甚少, 并认为应该将100万公民的数据图像添加到测试组中。您的意见是:(B、C)

    A、一个更大的测试集将减慢迭代的速度, 因为在测试集上评估模型的计算费用。

    B、这将导致开发和测试集分布变得不同。这是一个坏主意, 因为你没有瞄准你想要击中的地方。

    C、测试集不再反映您最关心的数据 (安全摄像机拍的) 的分布。

    D、与其余的数据相比,100万公民的数据图像没有一个一致的 x->> y 映射 (类似于纽约市/底特律住房价格的例子, 从讲座)。

     

     

    【中文翻译】

    在这个项目工作了一年后, 你终于实现了:
    人类的表现:0.10%
    训练集误差:0.05%
    开发集误差:0.05%
    你能得出什么结论?(检查所有适用的) (A、C)
     
    A、现在很难测量可避免的偏差, 因此进展将会缓慢。

    B、这是一个统计异常 (或必须是统计噪声的结果), 因为它不应该是可能超越人类的水平的表现。

    C、如果测试集足够大, 足以使0.05% 错误估计准确, 这意味着贝叶斯错误率是≤0.05

    D、只要有0.09% 的进一步进展, 你应该能够迅速减少剩余的差距到0%

    【中文翻译】

    事实证明, Peacetopia 已经聘请了你的竞争对手建立一个系统。您的系统和竞争对手都提供与运行时间和内存大小相同的系统。但是, 您的系统有更高的精确度!然而, 当 Peacetopia 尝试你和你的竞争对手的系统, 他们的结论, 他们实际上喜欢你的竞争对手的系统并认为更好, 因为即使你有更高的整体精度, 你有更多的假阴性 (鸟在空气时,没有发出警报)。你该怎么办? (C)
    A、看看您在开发过程中开发的所有模型, 并找到一个具有最低错误负错误率的模型。

    B、请您的团队在开发过程中考虑准确性和假负率。

    C、重新考虑此任务的适当度量, 并要求您的团队调整到新的度量标准。

    D、选择假负率作为新的度量, 并使用这个新的度量来推动所有的进一步发展。

    【中文翻译】

    你已经轻而易举地击败了你的竞争者, 你的系统现在部署在 Peacetopia, 保护公民免受鸟类的打击!但是在过去的几个月里, 一种新的鸟类已经慢慢地迁移到了这个区域, 所以你的系统的性能会慢慢降低, 因为你的数据正在测试一种新的数据类型。
    你只有1000种新鸟类的图像。在未来的3月内, 城市期望有一个更好的系统。你应该先做哪个?(A)
     
    A、使用您所需要的数据来定义新的评估指标 (使用新的开发/测试集), 并考虑到新的物种, 并使用它来推动您的团队取得进一步的进展。
    B、把这1000张图片放到训练组里, 以便更好地处理这些鸟。

    C、尝试数据扩充/数据合成, 以获得更多的新类型的鸟图像。

    D、将1000图像添加到数据集中, 重新调整为新的火车/开发/测试剥离。

     

    【中文翻译】

    市议会认为, 有更多的猫在城市将有助于吓跑鸟类。他们是如此高兴与你的工作, 鸟类探测器, 他们也聘请你建立一个猫探测器。(哇, Cat 探测器是非常有用的, 不是吗?由于多年来工作与cat 探测有关, 你有这样一个巨大的数据集——1亿猫的图像, 训练这个数据大约需要两个星期。你同意哪些陈述?(检查所有同意)(B、C、D)


    A、建立了一个好的鸟探测器, 你应该能够采取相同的模型和参数, 只是将它应用到 Cat 数据集, 所以没有必要迭代。

    B、需要两个星期的训练将限制你可以循环的速度。

    C、购买更快的计算机可以加快团队的迭代速度, 从而提高团队的工作效率。

    D、如果1亿的例子足以建立一个足够好的 Cat 检测器, 用1000万个例子, 你可能会更好的训练, 在快速运行实验方面,获得一个a≈10x 的改进,即使每个模型表现得有点差, 因为它的训练较少数据.

  • 相关阅读:
    jQuery(2)
    jQuery(1)
    underscore.js
    面向对象复习
    1.14函数复习
    面向对象(3)继承
    10.18
    1017
    js笔记二
    js笔记一
  • 原文地址:https://www.cnblogs.com/hezhiyao/p/8119135.html
Copyright © 2011-2022 走看看