一、Dashboard(仪表盘,总览页面)
【总览】

【集群操作】

【配置文件下载】

【图表操作】

【图表时间配置】
【集群总体监控图表】

Memory Usage:整个集群的内存使用情况,包括 cached,swapped,used,和shared。
Network usage:整个就群的网络流量,包括上行和下行;
CPU Usage:集群的CPU使用情况;
Cluster Load:集群整体加载信息,包括节点数目,总CPU个数,正在运行的进程
【HDFS层面】
【HDFS Disk Usage】


左图:整个集群的磁盘使用情况。
右图:DFS的使用情况;non DFS的使用情况;磁盘实际剩余空间。
总共:100G空间。
如果配置了dfs.datanode.du.reserved = 30G。
那么,HDFS可以理所应当的占据70GB的空间。
这个时候,如果系统文件或者其他文件已经使用了40GB。
那么就意味着,最多给HDFS的空间只剩下60GB了!!
本来讲道理,HDFS有70GB的空间可以挥霍,但是现在空间只有60GB。
是不是说,有10GB应当给HDFS用的空间,却被其他东西使用了?
这个10GB的空间,就是Non - DFS!
如果dfs.datanode.du.reserved配置了0GB。
那么就意味着,只要不是HDFS使用的空间,都是NonDFS!!
【NameNode Heap】


NameNode的JVM堆使用情况。
【NameNode CPU WIO】


NameNode节点的CPU WIO。表示CPU空闲等待IO的情况,参数越高,说明CPU在长时间等待磁盘、网络等IO的操作而空闲。IO瓶颈较大。
【NameNode RPC】


RPC请求在队列中的平均滞留时间。
【NameNode Uptime】


NameNode累计上线时间,以及上线时间点。
【DataNodes Live】


DataNode的状态。
【HDFS Links】

HDFS相关页面的快速链接。
【Yarn 层面】


YARN Memory:Yarn集群的内存使用率。
【ResourceManager Heap】


RM的JVM堆使用情况。
【ResourceManager Uptime】


RM累计上线时间,以及上线时间点。
【NodeManagers Live】
NM的节点状态监控。


【节点热力图】

【服务参数版本管理】

【查看操作】

【查看告警】

二、服务面板
下面是HDFS的主面板,其他的类似。

三、参数配置、组、版本



可以把Default理解为主版本(master版本),默认所有的节点配置都是按照这个来。
可以对这个主版本创建一个分支,也就是创建一个group。group中存储额外override覆盖的参数。
group中的参数会在哪个节点中生效取决于该group中配置了哪些host。
在默认的Default组的config面板中,参数都可以直接修改,这里改的是master主版本的配置。

核心参数不允许Override。

也可以Override这个参数,一旦点击,就会提示说在哪个group中改这个参数。

在分支组中的配置面板如下:


四、Host主机管理
主机列表视图:

主机视图:

五、告警管理
告警列表视图:

告警详情:

六、Ambari管理

总体界面:

【自定义页面管理】
【用户和用户组角色分配】

【角色权限列表】
七、扩展页面
【Yarn队列管理】

【HDFS】文件管理
七、AMS(Ambari Metrics System)
AMS包括4个部分:
Metrics Monitors:在各个节点中收集系统级别的度量参数,然后推送给Metrics Collector。
Hadoop Sinks:内嵌在Hadoop的各个组件中,将Hadoop的度量参数推送给Metrics Collector。
Metrics Collector:一个守护进程,运行在特定的节点中,用来接收已经注册的“Publisher”的数据。
Grafana:开源的度量分析和可视化套件。数据源为Collector。
【AMS架构图】
【访问Grafana界面】
默认端口号是3000。
【Grafana简单操作】