(转载)shell日志分析常用命令

zoukankan html css js c++ java

(转载)shell日志分析常用命令
shell日志分析常用命令总结

时间：2016-03-09 15:55:29来源：网络

导读：shell日志分析的常用命令，用于日志分析的shell脚本,统计日志中百度蜘蛛的抓取量、抓取最多的页面、抓取404错误页面的数量等.

shell日志分析常用命令
一，用于日志分析的shell脚本

1、在windows下的用户要使用shell命令符的话请先安装cygwin，安装方法自行google（搜技术问题请使用google，百度搜不到活该）

2、seo日志分析常用的命令符用法。
less 文件名查看文件内容按“q” 退出
cat 文件名打开文件，可以多次打开几个文件 | cat 1.log 2.log |cat *.cat
grep -参数文件名
-i 不区分大小写
-v 显示不符合条件的所有行
-c 显示符合条件的所有行数（符合条件的数量）
egrep 属于grep的升级版，在正则这一块的支持更完善，使用正则的时候建议使用egrep
head -2 文件名显示2行
head -100 文件名 | tail -10 >>a.log 提取文件第91-100行数据
wc -参数文件名统计文本大小，字符多少，行数
-c 统计文本字节数
-m 统计文本字符数
-l 统计文本有多少行
sort – 参数文件名对文件进行排序
-n 对文件按照数字排序
-r 反向排序
uniq -参数文件名对文件去重，去重前需要使用排序
sort
-c 显示数据重复的次数
split -参数文件名对文件进行切割
-100 （每100行切割成一个文件）
-C 25m/b/k (每25兆/字节/K 分割成一个文件)
| 管道，把上一条命令的结果传输给下一条命令
“>” 和“>> ” 重定向写入文件中 “>”相当于“w”清空并写入 “>>”相当于“a” 追加进文件
awk -F ‘分割符' Pattern ｛action｝文件名使用指定的字符对每一行数据进行分段，默认是空格（网站日志就是空格分开）
-F后面跟的是分隔符
pattern 就是action执行的条件，这里可以使用正则表达式
$n 即时第几段数据 $0表示整行数据
NF表示当前记录的字段数
$NF 表示最后一个字段
BEGIN和END，这两者都可用于pattern中，提供BEGIN和END的作用是给程序赋予初始状态和在程序结束之后执行一些扫尾的工作
bash shell.sh 运行shell.sh脚本
dos2unix xxoo.sh 将“ ”转换成“ ” Windows——>linux （由于Windows和Linux下的换行符不同，所以我们在Windows下面下的代码需要使用dos2unix 转换成Linux下的换行符，否则运行shell脚本会报错）
unix2dos xxoo.sh 将“ ”转换成“ ” linux——>Windows
rm xx.txt 删除xx.txt文件

二，使用shell分析日志

包括了统计日志中百度蜘蛛的抓取量、不重复抓取量、抓取最多的页面、抓取404错误页面的数量等。

1、切割百度的抓取数据（将文件切割出来对专门的爬虫数据进行处理能提高效率）

cat log.log |grep -i ‘baiduspider' >baidu.log

2、网站状态码个数查询

awk ‘{print $9}' baidu.log|sort|uniq -c|sort -nr

3、百度总抓取量

wc -l baidu.log

4、百度不重复抓取量

awk ‘{print $7}' baidu.log|sort|uniq|wc -l

5、百度平均每次抓取的数据大小（结果是KB）

awk ‘{print $10}' baidu.log|awk ‘BEGIN{a=0}{a+=$1}END{ print a/NR/1024}'

6、首页抓取量

awk ‘$7~/.com/$/' baidu.log|wc -l

7、某目录抓取量

grep ‘/news/' baidu.log|wc -l

8、抓取最多的10个页面

awk ‘{print $7}' baidu.log|sort|uniq -c|sort -nr|head -10

9、找出抓取的404错误页面

awk ‘$9~ /^404$/ {print $7}' baidu.log|sort|uniq|sort -nr

10、找出抓取了多少js文件和文件抓取的次数

awk ‘$7~ /.js$/ {print $7}' baidu.log|sort|uniq -c |sort -nr
相关文章

awk抽取指定日期时间段的日志内容

shell脚本中awk命令读取nginx日志访问频次

shell格式化日志输出的函数代码

shell脚本分析apache中access_log日志文件

awk命令截取日志文件内容的方法

shell统计日志文件IP出现次数的方法

shell脚本中用expect分析日志

shell监控服务日志生成并发邮件

shell脚本清除日志文件内容

shell脚本截取随机100条日志行数的方法
查看全文

相关阅读:
[转] Windows Server 2012 Beta Cluster (HyperV 3.0)SMB篇
 [转] 使用效能監視器收集HyperV的效能，並透過PAL Tool產出報表
 [转]Windows Server 8 Beta 介绍 (04) –Windows PowerShell Web Access简介 (下)
[转]SSL 与数字证书的基本概念和工作原理
 [转] HyperV如何避免NUMA對效能上的影響
 [转] Windows Server “8” Beta 介绍 (06) –基于策略的IP地址分配（中）
[转]SCVMM2012部署之四：安装VMM远程控制台
 [转] SCVMM2012部署之二：安装VMM服务器和VMM控制台
 [转]Windows Server 2012 RC 之 HyperV 3.0 PowerShell 命令详解 (01)
[转] Windows Server “8” Beta 介绍 (07) –基于策略的IP地址分配（下）

原文地址：https://www.cnblogs.com/yes123/p/5275554.html

(转载)shell日志分析常用命令

shell日志分析常用命令总结

相关文章