zoukankan      html  css  js  c++  java
  • 读SRE Google运维解密有感(一)

    第一章读后感

    SRE之道的理解:创建软件系统来运行和替换传统的人工操作。

    在实际工作中:

          1.我们执行重复性的工作,流程话,新建项目需要那些资源,那些账号,那些权限,制作成流程,一个项目来了相关同事按照流程操作,不会遗漏细节,提高速度。

            eg:

             新项目流程:xmind,(一图胜万语言)

             

     2.系统节点出现故障,自动升级docker,添加到集群节点,减少重复性工作,节省更多时间到技术学习中,和SRE核心思想和理论相符合。

    3.监控系统:

    首先我们的监控式蓝鲸平台:

    1.能对基础资源监控,cpu,内存,磁盘使用等。

    2.能自定义监控:监控我们项目的api,公共服务访问是否正常,nginx,rocket,solr服务是否正常运行,k8s集群的pod监控,node的监控。能满足我们日常业务的需要

    3.能邮件报警,报警策略比较丰富,实时性,准确性高。

    4.出现告警也能自愈,磁盘使用率过高,自动清理日志。以前unex系统经常异常死节点,aws上又不能看日志,所以完全没有眉目,每次挂节点后,需要手动添加节点,配置相关选项,耗时耗力。后来接入蓝鲸自愈监控磁盘,自动处理后,一直未见node挂掉的现象,一劳永逸。

    第五章读后感

    减少琐事:

    SRE要把更多的时间放在研究项目上而非日常运维中。

    首先每个公司的项目流程,基础架构基本相同,需要进行梳理,并做好相关策略(架构图,网络图,安装配置文档,配置策略备份,数据策略,注意事项):

    1.基础服务的梳理:

    jenkins

    nexus

    sonar等

    这些服务的配置项,及配置的意义,其实包括所有的软件配置项,及配置的意义,都需要整理。

    2.所有的服务,或者说任意一个服务挂了,会影响服务吗,恢复的时间,要恢复就要有备份,备份在哪里,怎么备份,这一套流程都需要整理。

    SRE中定义了一个概念叫SLO(服务质量目标),通过SLO合理评判一个服务要达成的服务质量。工作过程中指定合理的服务质量目标,可以科学的运维。

    这本书中提到服务太稳定不好:

    服务太稳定,相关的依赖就很多,一旦出现问题,会影响很多,所以需要做故障演练,当真正出现问题的时候,能游刃有余。

    3.最近正在整理线上的软件安装步骤及配置:

    以前自己只会二进制安装k8s,但是现在需要用到kubespray,kops等工具安装,现在使用安装没有问题,kubespray已经成功加到线上节点,正常使用。KOPS自己本地已经安装成功,正准备把一个项目放到里面去运行,使aws那一套kops流程跑完,再整理线上的kops项目,梳理成文档,避免下次走这一套繁琐的过程。

  • 相关阅读:
    看起来像一个输入框的input,实际上是有两个input
    Actions类的一些主要方法
    selenium通过WebDriverWait实现ajax测试,实现等页面元素加载完成
    如何判断新打开窗口是否需要切换
    鼠标悬停
    Selenium WebDriver使用IE浏览器
    Element should have been select but was input
    58同城Java面试
    2个线程ABAB或者BABA循环输出
    使多个线程循环输出099099
  • 原文地址:https://www.cnblogs.com/Jt00/p/10341929.html
Copyright © 2011-2022 走看看