东师理想运维工具开发路线图(第一阶段)
全面建设三个目标:自动化打包、自动化运维、自动化测试(由易到难)
1、TEACH、EDUOFFICE、备课助手、理想课堂 四个产品的内部IP+外部IP服务器端打包,更新包一次云端部署,各地服务器自动更新。
提升:曹洪念、陈丽月每个地区进行IP打包,只能打包一个IP地址,反复替换安装包。
进展:已完成基本功能开发,周一周二完成测试
设计:黄海,高峰
开发:黄海,吴缤
2、各地区系统内各服务状态监测,发现服务异常,发短信进行通知管理员,并尝试对异常服务进行重新启动。
提升:对运维的各地区服务器第一时间掌控服务状态,以前的检测太简单了,只能检查TOMCAT是否DOWN机,现在磁盘是否掉线,TOMCAT是否僵死(进程存在,但不提供服务),新版本都将进行检测。
但对于IO,CPU,内存,线程数等情况本版本不做检测,规划到第二个版本。
进展:已完成绝大多数功能,在周三前完成所有代码开发,并在周三,周四进行内测,下周开始部署到各地服务器。
设计:黄海
开发:黄海,吴缤
(1)指定进程的CPU使用率大于80%,就报警
(2)REDIS的GET,SET测试操作时间,如果超过1秒就报警。
(3)REDIS内存使用超过4G就报警
(4)磁盘空间剩余
(5)检测data目录下host_name.err,是否有错误产生。
(6)MYSQL数据库连接时间是否在规定范围内。
(7)SSDB的响应时间是否在规定范围内。
(8)定时将服务器的各种状态,信息发送到OSS的文本文件中,并由专门的PYTHON脚本整理到MYSQL,通过 zabbix进行服务器状态图型绘制。
Python+Mysql生成zabbix统计数据
http://lihuipeng.blog.51cto.com/3064864/1533315
3、更新升级工具开发,包括:一键系统备份,更新时原配置文件升级检测(如已经在安装时更改了配置,在升级时需要人工检查),数据升级工具。
提升:全面提高在升级项目时的效率,争取取消人力的投入,做到自动化升级。
进展:9月第2周内完成所有工具的开发和内测。
设计:黄海,吴缤
开发:黄海,吴缤
4、接口检查工作的开发
程老师要求的工具,已自行开发提供,但还缺少一个,需要不断催促。
为研修平台提供的接口,也要云平台提供接口检测工具。
提升:自动化测试,测试部人员无需介入。
进展:9月第3周内完成。
设计:黄海,程立志
开发:黄海,程立志
5、云平台、研修平台、教学平台后端代码开发人员,全面普及PYTHON编程,要求每组提供每个模块的PYTHON单元测试脚本。
提升:对于所有平台的核心代码完成实现测试自动化。
预计:10月份开始,具体完成时间未知
设计:黄海
开发:各组成员
6、资源数据的每天自动更新
提升:不再纠结A地区数据不是最新的,需要申请人为更新,而是全面实现自动化更新。
设计:黄海,吴缤
开发:吴缤,黄海
预计:9月份内完成设计和开发
整体规划时间2个月一个阶段性目标,完成后将大大减少运维压力,错误也会越来越少。目标开始前,向单位申请立项,并为每一步骤约定绩效奖励,如期完成,单位进行绩效奖励。未能如期完成目标,不发放任何绩效。