zoukankan      html  css  js  c++  java
  • 学习灾难

    昀哥(老兵笔记) 20200202

    有人问为什么不能吸取2003年SARS的教训?为什么不带护目镜?为什么不知道粪便里有活性病毒?十七年前不就都知道了吗?

     

    1

    并不是每个行业每个实体都能吸取同行的经验教训,虽然平时我们也都在学习借鉴别人的成功与错误。

    最近的一个例子是,京东2020年1月8日的无门槛优惠券事件,与2019年1月20日拼多多无门槛优惠券事故如出一辙。

    前者把京东自营小家电品类上到了200元无门槛券的适用区域里,时间长达五十分钟。后者是把一个已过期的运营活动误操作,导致凌晨重新上线,羊毛党徒们彻夜狂欢。

    很遗憾,这样的悲剧每年可能都会来一次。

     

    2

    我曾写道:

    整整齐齐摆放的行李箱,提醒我们仍然是善于遗忘的愚蠢的人类。

    ——郑昀,那些年我们一起犯过的错

    航空业与医疗业对错误的态度是迥然不同的。航空业更愿意正视错误,飞行员们总体上说对自身的失误都抱着公开和坦诚的态度,部分原因是错误会导致他们自己死亡。这个行业里有强势并独立的组织专门负责对空难进行调查。失败不会被当成控诉某一位飞行员的理由,而会被视为能让所有飞行员、航空公司和管理者们学习进步的一次宝贵机会。

    而医疗界相对来说,死的更多是患者,还有论文的KPI压力,所以行业偏保守。但SARS和本次肺炎事件都威胁到了一线医护人员的生命安全,所以可能对行业协会有一定促进作用。

     

    3

    丰田生产体系和管理方法中有一条是人员自主化

    人员自主化是人员与机械设备的有机配合行为。生产线上产生质量、数量、品种上的问题机械设备自动停机,并有指示显示,而任何人发现故障问题都有权立即停止生产线,主动排除故障,解决问题。同时将质量管理溶入生产过程,变为每一个员工的自主行为,将一切工作变为有效劳动。

    它强调一种由下而上的管理,各项作业流程的规定、实施和监督都是由现场作业人员通过相互讨论、学习而形成的,而不是领导给你拍了个工作规范。这某种程度上与航空航天是相通的,如果对待错误的态度是开诚布公的,那么整个系统就能从中学习,能取得进步。

     

    4

    经常看我的文章的人都知道,在日常工作中,对于事故处理,我们一向遵从航天二十字诀:定位准确、机理清楚、可以复现、措施有效、举一反三

    我们坚持每错必查、错了又错就整改、每错必写,用身体力行告诉每一个新员工直面错误、公开技术细节、分享给所有人,长此以往,每一次事故都会变为我们的财富,成为了团队的传承和家底。

    RCA报告的标准格式为:

    背景知识(Optional)问题现象影响范围问题原因问题分析过程(Optional)解决办法后续处理措施:如线上脏数据如何修复,如对用户造成的影响如何弥补等(Optional)经验教训RCA类型:如代码问题、实施问题、配置问题、设计问题、测试问题

     

    但即使是有了RCA制度和案例库,我们日常工作仍然会挂一漏万,毕竟人不是机器。那怎麽办呢?

     

    5

    这么办:

    第一,在专业领域里,千万不能让外行领导内行!

    我发现好多做管理的都不知道这一条,总觉得我做管理的能管天下万事万物。扯淡!

    第二,投入人力物力在增长体系内功、有助传承的长期项目上,工具化,通用化,标准化,自动化,数据化。医疗和IT以及其他各行各业多看看《清单革命》和《黑匣子思维》这两本书。

    在面对安全、审计、质量控制等要求时,更愿意选择用“机器(注:这是一个泛指)”解决,而不是增加流程,增加中间节点。

    酷壳陈皓说过,技术债是不能欠的,要残酷无情地还债。很多事情,一开始不会有,那么就永远不会有。一旦一个事情烂了,后面只能跟着一起烂,烂得越多,就越没有人敢去还债。

    所以凡是被不断重复的过程,一定要将其工具化,绑定到自动化流程之中,减少基层员工不必要的心智负担。

    第三,定期做灾难演练。

    近年来工业界有一种混沌工程(Chaos Engineering)理念,这是在分布式系统上进行实验的学科,目的是建立对系统抵御生产环境中失控条件的能力以及信心,最早由Netflix及相关团队提出。它的核心思想是,减少故障的最好方法就是让故障经常性的发生。通过不断重复失败过程,持续提升系统的容错和弹性能力。阿里巴巴对应的开源混沌工程工具名叫 ChaosBlade,就是专门做故障注入的。

    比如阿里巴巴经常搞的断网断电演练和生产突袭。

    你不能指望平常没做过异地多活切机房,灾难来临的时候所有人能步调一致、有条不紊地切换流量和机房。

     

    -EOF-

  • 相关阅读:
    系统维护相关问题
    Python环境维护
    哈希表解决字符串问题
    论文笔记二:《A Tutoral on Spectral Clustering》
    论文笔记之哈希学习比较--《Supervised Hashing with Kernels》《Towards Optimal Binary Code Learning via Ordinal Embedding》《Top Rank Supervised Binary Coding for Visual Search》
    Java中String、StringBuffer、StringBuilder的比较与源 代码分析
    浙大pat1040 Longest Symmetric String(25 分)
    浙大pat1039 Course List for Student(25 分)
    浙大pat---1036 Boys vs Girls (25)
    百炼oj-4151:电影节
  • 原文地址:https://www.cnblogs.com/zhengyun_ustc/p/12286049.html
Copyright © 2011-2022 走看看