昀哥(老兵笔记) 20200202
有人问为什么不能吸取2003年SARS的教训?为什么不带护目镜?为什么不知道粪便里有活性病毒?十七年前不就都知道了吗?
1
并不是每个行业每个实体都能吸取同行的经验教训,虽然平时我们也都在学习借鉴别人的成功与错误。
最近的一个例子是,京东2020年1月8日的无门槛优惠券事件,与2019年1月20日拼多多无门槛优惠券事故如出一辙。
前者把京东自营小家电品类上到了200元无门槛券的适用区域里,时间长达五十分钟。后者是把一个已过期的运营活动误操作,导致凌晨重新上线,羊毛党徒们彻夜狂欢。
很遗憾,这样的悲剧每年可能都会来一次。
2
我曾写道:
整整齐齐摆放的行李箱,提醒我们仍然是善于遗忘的愚蠢的人类。
——郑昀,那些年我们一起犯过的错
航空业与医疗业对错误的态度是迥然不同的。航空业更愿意正视错误,飞行员们总体上说对自身的失误都抱着公开和坦诚的态度,部分原因是错误会导致他们自己死亡。这个行业里有强势并独立的组织专门负责对空难进行调查。失败不会被当成控诉某一位飞行员的理由,而会被视为能让所有飞行员、航空公司和管理者们学习进步的一次宝贵机会。
而医疗界相对来说,死的更多是患者,还有论文的KPI压力,所以行业偏保守。但SARS和本次肺炎事件都威胁到了一线医护人员的生命安全,所以可能对行业协会有一定促进作用。
3
丰田生产体系和管理方法中有一条是人员自主化:
人员自主化是人员与机械设备的有机配合行为。生产线上产生质量、数量、品种上的问题机械设备自动停机,并有指示显示,而任何人发现故障问题都有权立即停止生产线,主动排除故障,解决问题。同时将质量管理溶入生产过程,变为每一个员工的自主行为,将一切工作变为有效劳动。
它强调一种由下而上的管理,各项作业流程的规定、实施和监督都是由现场作业人员通过相互讨论、学习而形成的,而不是领导给你拍了个工作规范。这某种程度上与航空航天是相通的,如果对待错误的态度是开诚布公的,那么整个系统就能从中学习,能取得进步。
4
经常看我的文章的人都知道,在日常工作中,对于事故处理,我们一向遵从航天二十字诀:定位准确、机理清楚、可以复现、措施有效、举一反三。
我们坚持每错必查、错了又错就整改、每错必写,用身体力行告诉每一个新员工直面错误、公开技术细节、分享给所有人,长此以往,每一次事故都会变为我们的财富,成为了团队的传承和家底。
RCA报告的标准格式为:
背景知识(Optional)问题现象影响范围问题原因问题分析过程(Optional)解决办法后续处理措施:如线上脏数据如何修复,如对用户造成的影响如何弥补等(Optional)经验教训RCA类型:如代码问题、实施问题、配置问题、设计问题、测试问题
但即使是有了RCA制度和案例库,我们日常工作仍然会挂一漏万,毕竟人不是机器。那怎麽办呢?
5
这么办:
第一,在专业领域里,千万不能让外行领导内行!
我发现好多做管理的都不知道这一条,总觉得我做管理的能管天下万事万物。扯淡!
第二,投入人力物力在增长体系内功、有助传承的长期项目上,工具化,通用化,标准化,自动化,数据化。医疗和IT以及其他各行各业多看看《清单革命》和《黑匣子思维》这两本书。
在面对安全、审计、质量控制等要求时,更愿意选择用“机器(注:这是一个泛指)”解决,而不是增加流程,增加中间节点。
酷壳陈皓说过,技术债是不能欠的,要残酷无情地还债。很多事情,一开始不会有,那么就永远不会有。一旦一个事情烂了,后面只能跟着一起烂,烂得越多,就越没有人敢去还债。
所以凡是被不断重复的过程,一定要将其工具化,绑定到自动化流程之中,减少基层员工不必要的心智负担。
第三,定期做灾难演练。
近年来工业界有一种混沌工程(Chaos Engineering)理念,这是在分布式系统上进行实验的学科,目的是建立对系统抵御生产环境中失控条件的能力以及信心,最早由Netflix及相关团队提出。它的核心思想是,减少故障的最好方法就是让故障经常性的发生。通过不断重复失败过程,持续提升系统的容错和弹性能力。阿里巴巴对应的开源混沌工程工具名叫 ChaosBlade,就是专门做故障注入的。
比如阿里巴巴经常搞的断网断电演练和生产突袭。
你不能指望平常没做过异地多活切机房,灾难来临的时候所有人能步调一致、有条不紊地切换流量和机房。
-EOF-