网络及服务故障排查
例:检查公司的网站是否有问题。
1、你是运维人员,客户说打开网站慢,,请分析可能原因
a.ping www.muyuchen.com icmp协议,(高速公路有没有修通),linux禁止icmp。 ping -c3 -i2 -s512 www.baidu.com b.traceroute www.baidu.com 基础检查,各个高速节点有没有修通。 c.telnet www.etiatian.org 80 检查服务器WEB有没有开启,服务开没开, 以及防火墙有没有档住,(让不让这个服务通过,让不让你跑骑车)。 nmap 10.0.0.25 -p 80 nc 不通:1、80服务没开或端口不存在。
2、fw防火墙阻挡了。
3、服务监听的端口不在连接的IP上(127.0.0.1:25)。
4、ISP运营商默认不开端口,申请开端口。
d.win:跟踪路由
tracert -d www.baidu.com
C:Usersoldboy>tracert -d www.qq.com
通过最多 30 个跃点跟踪
到 www.qq.com [182.254.18.159] 的路由:
1 5 ms 1 ms 1 ms 10.0.0.254 2 8 ms 8 ms 18 ms 115.33.32.1 3 5 ms 8 ms 9 ms 218.241.253.145 4 116 ms 19 ms 4 ms 14.197.242.17 5 6 ms 8 ms 7 ms 14.197.245.2 6 9 ms 10 ms 12 ms 10.200.5.69 7 12 ms 18 ms 11 ms 10.200.7.241 8 34 ms 8 ms 9 ms 10.200.5.82 9 11 ms 11 ms 13 ms 10.200.111.154 10 10 ms 15 ms 10 ms 10.218.101.154 11 10 ms 8 ms 8 ms 182.254.18.159
跟踪完成。
抓包扫描工具
tcpdump命令 tcpdump -n icmp -i eth0 nmap windows: wireshark,sniffer,科来网络分析几个软件
局域网机器无法上网如何解决?
面试题:作为企业网管,局域网的某个机器无法上网,请给出排错思路?
以win32客户端为例:排查方法
提示:基本检查思路,在win32客户端上执行
(一)单个机器无法上网,别人都可以
a.ping www.baidu.com高速有没有修通 如果通,但还不能上网:可能是浏览器、中毒、代理等问题。 b.ping 10.0.0.254网关 目的是排除物理链路(网线,网卡,驱动,IP设置等)。 如果ping网关不通,则查看ip设置,然后ping自身ip或ping网内其它机器IP。 如果ping自己ip不通:检查ip设置、网卡驱动、物理链路。 如果ping网内其它机器IP是通的,网关不让你联网了,或网关配错。 c.ping网关通的情况下,检查DNS的设置情况是否正确 1、检查方法是,ping公网ip,看通畅情况(平时要记几个外部IP) ping 203.81.19.1。 2、host/dig/nslookup检查域名解析。 d.上网路由器问题(配置和硬件)以及ISP线路问题。 登录路由,检查上级线路,打电话给ISP技术。 e.辅助排查:其他人能否上网,IP地址冲突,ARP病毒,核心交换机坏了,交换机环路(看日志)。
(二)大面积上不了网的思路
路由器,ISP,核心交换机,ARP病毒欺骗网关,网关地址被占用,LDNS出问题。
核心交换机坏了,交换机环路。交换机MAC/ARP池满了。
网站打开慢如何排查(80%)
面试题:作为linux运维,客户反映打开你的网站服务器很慢,如何排错(运维)。
1、网站带宽问题。 2、服务器CPU过高。 3、内容资源过大。 4、用户的带宽过载。 5、网站代码有问题。 6、用户线路和网站线路对不上问题。 7、网站服务器遭受攻击。
8.托管IDC机房的总出口带宽或者相关服务器的流量(mrtg)是不是满了。
9.web服务器是不是负载很高。IO很高,CPU高
10.是不是http连接数到上限了,apache默认150,可以看错误日志。
11.看看后端的数据库服务器是不是负载高 负载很高。IO很高,CPU高。
12.登陆数据库,看是否有慢查询语句show proceslist,调整MYSQL配置,优化SQL语句。
13.是不是存储服务器,如NFS,MFS的负载及磁盘IO高?
例:检查沐禹辰的网站是否有问题。
(一)用户个例,还是全部。
自己把自己当做用户去测试,如果没问题,就从客户的角度去思考。如果自己测试同样有问题,按下面思路排查。
1、路是否通的问题。
a.ping www.muyuchen.org,高速路有没有修好。
如果ping是通的,不丢包。http服务的问题(服务宕机了,服务过载了)。
如果ping是通的,丢包。机房带宽不稳定。各个线路不稳定。
如果ping不通,ping baidu.com, 机房宕了,或者http服务的问题(服务宕机了,服务过载了)。
b.tracert -d www.oldboy.me 高速的各个路段有没有修好。从客户端到服务器之间各个线路。让机房配合查。
第一:用户个例,还是全部。
自己当做用户去测试,如果没问题,就从客户的角度去思考。
如果自己测试同样有问题,按下面的思路排查。
线路是否正常问题
a. ping www.baidu.com 检测ping的线路是否正常
如果ping是通的,不丢包。http服务的问题(服务宕机了 服务过载了)
如果ping是通的,但丢包。机房带宽不稳定。各个线路不稳定。
如果ping是不通,ping其它网址,若通:机房宕机,http服务的问题(服务宕机了 服务过载了)
b. tracert -d www.baidu.com 检查追踪解析路径是否正常
机房业务是否正常
c. telnet www.baidu.com 80 检查服务器web服务有没有开启以及防火墙有没有挡住。 nmap www.baidu.com -p 80 curl www.baidu.com 或 wget www.badu.com 相当于浏览器访问 d. 提供服务的服务器是否资源过载,服务器及服务连接数过多,负载高,cpu高,IO高
外部问题
e. 网站购买带宽是否满了,通过流量监控服务查看 f. 内链外链(调用外部网站网址有问题) 调试网站前端的工具:1. google 浏览器 F12 2. 火狐 firebug yslow 3. IE httpwatch
其它问题:
个别客户自身问题,eg:用户的线路和网站带宽的线路不符
集群架构问题:(数百台服务器提供服务)
g. web服务问题
h. 数据库问题,登录数据库。看是否有慢查询语句show proceslist,调整MYSQL配置,
优化SQL语句
i. 存储等的问题。是不是存储服务器,如 NFS MFS 的负载及磁盘IO高
网络基础必会的笔试、口试、面试:
1、tcp/ip协议的三次握手和四次断开过程。 2、http协议工作原理。 3、局域网机器无法上网排查。 4、网站打开慢排查(作为运维)。 5、DNS与智能DNS解析原理 6、OSI7层网络模型及各层对应的协议 7、如何查看已知端口对应的服务名? 8、route如何添加一个网络路由? 9、tcpdump抓包排查(了解) 10、IP分类与子网划分(了解) 11、netstat输出中网络状态信息,以及不同状态之间的转换。 12、网络连接的按IP计算访问次数,网站IP对应的PV访问数。 13、timewait过多的解决。
声明出处:由于本文是根据书本写的博客,如遇已有类似文章博客,请联系我,我会在声明出处。