zoukankan      html  css  js  c++  java
  • 云计算之路-阿里云上-寒流来袭:2014年12月23日21:45-23:15网站故障团队

    1个多小时间的网站故障给大家带来很大的麻烦,在这里我们表示深深的歉意!希望大家能够谅解!

    这两天上海的气温在回升,而杭州的云上却突然袭来一股寒流。

    12月23日晚上,阿里云进行了一次RDS的功能发布,在发布中悄无声息地修改了我们的RDS数据库连接数限制,谁也不知道,然后。。。

    21:45:52左右开始,日志中出现大量执行时间超过5秒的请求。

    然后出现超过10秒、20秒。。。甚至超过100秒的请求。

    21:46:50左右,开始出现数据库连接错误:

    System.Data.SqlClient.SqlException (0x80131904): Timeout 时间已到。
    在操作完成之前超时时间已过或服务器未响应。
    尝试连接到 Principle 服务器时发生了此故障。
    ---> System.ComponentModel.Win32Exception (0x80004005): 等待的操作过时。

    并继续出现大量执行时间超过5秒的请求。

    接着出现下面的错误:

    System.InvalidOperationException: 超时时间已到。
    超时时间已到,但是尚未从池中获取连接。
    出现这种情况可能是因为所有池连接均在使用,并且达到了最大池大小。

    再接着就是下面的错误:

    System.Web.HttpUnhandledException (0x80004005): 引发类型为“System.Web.HttpUnhandledException”的异常。 
    ---> System.Data.SqlClient.SqlException (0x80131904): 已成功与服务器建立连接,但是在登录前的握手期间发生错误。
    (provider: SSL Provider, error: 0 - 等待的操作过时。)

    然后网站就无法正常访问。

    (上图中紫色的线条表示的是请求执行时间)

    当我们发现问题后,立即向阿里云反馈,然后与阿里云工作人员一起排查问题。但是我们不知道这次RDS发布,阿里云参加排查问题的人也不知道。于是,紧张地做了1小时左右的无用功,直到知道了故障的真相——RDS功能发布时修改了我们的RDS最大连接数限制,而且这次发布事先没有任何通知。

    我们不要这样的“被故障”,我们要的是无故障,希望2015年全年无故障!

  • 相关阅读:
    数据量你造吗-JAVA分页
    编写高质量代码改善java程序的151个建议——[1-3]基础?亦是基础
    概率论快速学习03:概率公理补充
    概率论快速学习02:概率公理
    项目ITP(六) spring4.0 整合 Quartz 实现动态任务调度
    项目ITP(五) spring4.0 整合 Quartz 实现任务调度
    编写高质量代码改善java程序的151个建议——导航开篇
    概率论快速学习01:计数
    改善JAVA代码01:考虑静态工厂方法代替构造器
    Python快速学习10: 循环的对象及设计 (生活的规律)
  • 原文地址:https://www.cnblogs.com/cmt/p/4181482.html
Copyright © 2011-2022 走看看