Time: 2 hours
N. Sato, Kishor S. Trivedi: Accurate and efficient stochastic reliability analysis of composite services using their compact Markov reward model representations. IEEE SCC 2007: 114-121
作者里的Trivedi是大牛, 杜克大学的资深教授, 在Reliability modeling, Performance modeling等领域建树颇多, 去年还访问过中国. 以前学习Stochastic Petri Net的时候看过他的文章, SPNP(stochastic petri net package)工具也是他们那边开发的.
1. 这篇论文数学公式比较多, 如果不熟悉DTMC/CTMC/Markov reward model(MRM)等概念, 看起来有点慌.
先了解一下本文方法能够解决的问题场景(S5):
这个场景里的服务组合顺序调用服务P1和P2构成, 服务P1使用了服务器R1, 服务P2使用了服务器R2, 另有一台备份服务器(当R1或R2宕机时备用, 假设这台备份服务器自己永不宕机).
用CTMC对服务器进行建模,
R1/R2有三个状态: U(up), D(down), R(in repair)
备份服务器有2个状态: S(standing-by), U(up for a troubled server).
上图右边部分是这个包括3个服务器系统的状态图, 其中λ, µ, ν分别表示failure, failover(故障转移), repair rate.
下图中SR(P)是计算出来的组合服务的Reliability值, Cor是服务P1和P2之间的failure correlation.
有表可知, Cor的值越小, SR(P) ~ SR(P1) * SR(P2).
2. 主要有2种方法可用来对组合服务进行reliability analysis(S1):
(1) (stochastic) state-space models
包括: Markov chains, stochastic Petri nets
描述: represent service components and resources as probabilistic state transition systems
优缺点: accurrately captures the impacts of particular failures on the reliability of the entire service but incurs high computation complexity
(2) combinatorial models
包括: reliability block diagrams (RBDs), fault trees (FTs)
描述: focus on the causal relationships between components and resources
优缺点: high efficiencies at the cost of a potential loss of accuracy
3. 本文提出了一种基于Markov reward model (MRM)的技术来讨论组合服务的reliability, 在显著降低计算量(computational complexity)的同时而不失去精确性.
对service component使用DTMCs来建模.
对resources使用CTMCs来建模.
4. 这篇论文读起来有点吃力, 也不是我目前的研究重点, 这次只作为泛读材料. 要精读的话, 还得去学一下Markov reward model才行, 不过最近恐怕是不会去学了.