前几天在安装一套RAC服务器的过程中,遇到了蓝屏事件,折腾了蛮久(在排查是否存在硬件问题上花费了相当多一部分时间),整个过程大概说明如下:
1、两台华为的PC SERVER,操作系统为WIN SERVER 2008 R2,装11.2.0.3的Oracle集群。
2、第一次安装到准备在第二节点进行GRID安装的步骤时,安装操作所在的节点1蓝屏自动重启了。
3、重启节点1每次都会在出现登陆界面前一刻发生蓝屏。
4、集成部门的同事查看两台服务器的面板,发现蓝屏的服务器在面板上有些指示灯不亮,怀疑是服务器某些硬件设备有问题。
5、由于一批服务器的配置都一样,果断从应用服务器抽一台服务器来进行更换。重新安装操作系统,并重新进行GRID的安装,遗憾的是又一次蓝屏了。
6、这次可以肯定不是服务器的问题了,登陆MY ORACLE SUPPORT查询资料,发现很有可能与服务器的CPU核数过多有关。(PS:其实之前也有怀疑过这个问题,但是之前遇到的是安装到一半停滞不前,没遇到过蓝屏的情况,所以没有十分确定,加上集成部门的同事说服务器可能有问题,所以开始的时候虽然有过怀疑,但是还是没往这个方向继续查.)
7、重启服务器,进入BIOS修改CPU配置,关闭超线程的开关,使服务器的内核从64核变成32核。
8、重装系统
9、重装GRID,ORACLE,一切正常。