https://www.zhihu.com/question/50717459?sort=created
https://zhuanlan.zhihu.com/p/89447058
第一个:
https://www.cs.waikato.ac.nz/ml/weka/courses.html
教程: https://www.youtube.com/user/WekaMOOC
b站 : https://www.bilibili.com/video/BV1Hb411q7Bf?p=2
第二个:
https://elki-project.github.io/tutorial/distance_functions
第三个:
https://github.com/ICT-BDA/EasyML
介绍:
机器学习算法已成为许多大数据应用程序中的关键组件。但是,由于很难使用机器学习算法,尤其是在Hadoop和Spark等分布式平台上,机器学习的全部潜力仍未实现。关键的障碍不仅来自算法本身的实现,还来自将它们应用于实际应用的过程,这些应用通常涉及多个步骤和不同的算法。
我们的平台Easy Machine Learning提供了一个基于通用数据流的系统,可简化将机器学习算法应用于实际任务的过程。在该系统中,学习任务被表述为有向非循环图(DAG),其中每个节点代表一个操作(例如机器学习算法),每个边缘代表从一个节点到其后代的数据流。可以手动定义任务,也可以从现有任务/模板中克隆任务。将任务提交到云后,将根据DAG自动安排每个节点的执行时间。实现了图形用户界面,以使用户能够以拖放方式创建,配置,提交和监视任务。该系统的优势包括
降低定义和执行机器学习任务的障碍;
共享和重用算法,作业DAG和实验结果的实现;
将独立算法和分布式算法无缝集成在一项任务中。
该系统包含三个主要组件:
分布式机器学习库,不仅实现流行的机器学习算法,而且还实现数据预处理/后处理,数据格式转换,特征生成,性能评估等算法。这些算法主要基于Spark实现。
基于GUI的机器学习工作室系统,使用户能够以拖放方式创建,配置,提交,监视和共享其机器学习过程。可以在studio系统中访问和配置机器学习库中的所有算法。它们是构建机器学习任务的关键构建块。
第四个:AutoML