解读DAG Visualization图 - 走看看

zoukankan html css js c++ java

解读DAG Visualization图

在Spark中，job与被组织在DAG中的一组RDD依赖性密切相关，类似下图：

这个job执行一个简单的word cout。首先，它执行一个textFile从HDFS中读取输入文件，然后进行一个flatMap操作把每一行分割成word，接下来进行一个map操作，以形成form（word，1）对，最后进行一个reduceByKey操作总结每个word的数值。

可视化的蓝色阴影框对应到Spark操作，即用户调用的代码。每个框中的点代表对应操作下创建的RDDs。操作本身由每个流入的stages划分。

通过可视化我们可以发现很多有价值的地方。首先，根据显示我们可以看出Spark对流水线操作的优化——它们不会被分割。尤其是，从HDF S读取输入分区后，每个executor随后即对相同任务上的partion做flatMap和map，从而避免与下一个stage产生关联。

其次，RDDs在第一个stage中会进行缓存（用绿色突出表示），从而避免对HDFS（磁盘）相关读取工作。在这里，通过缓存和最小化文件读取可以获得更高的性能。

查看全文

相关阅读:
浏览器打开developers.weixin.qq.com开头的网站加载特别慢或者无法打开
 微信小程序在微信开发者工具中打开时为何提示“小程序重启耗时过久，请确认业务逻辑中是否有复杂运算，或者死循环”？
解决VMware Workstation 15 与Device/Credential Guard不兼容的问题
 Gitee同步项目后内容一致MD5不同
 Python2.7安装easy_install和pip
php连接数据库
 css画三角形
 css的9个常用选择器
 Javafx弹窗
 javafx将数据库内容输出到tableview表格

原文地址：https://www.cnblogs.com/wanpi/p/14481049.html

Copyright © 2011-2022 走看看