zoukankan      html  css  js  c++  java
  • Linux的文本处理工具浅谈-awk sed grep

    Linux的文本处理工具浅谈

    awk   老大

    【功能说明】

    用于文本处理的语言(取行,过滤),支持正则
    NR代表行数,$n取某一列,$NF最后一列
    NR==20,NR==30 从20行到30行
    FS竖着切,列的分隔符
    RS横着切,行的分隔符

    【语法格式】

    awk   [–F]   [“[分隔符]”]   [’{print$1,$NF}’]     [目标文件]
    awk 'BEGIN{FS="[列分隔符]+";RS="[行分隔符]+";print "-GEGIN-"} NR==n{动作} END{print "-END-"}' xxx.txt

     【内置变量】

    复制代码
    $n                    当前记录的第n个字段,字段间由 FS分隔。
    $0                    完整的输入记录。
    ARGC              命 令行参数的数目。
    ARGIND         命令行中当前文件的位置(从0开始算)。
    ARGV             包 含命令行参数的数组。
    CONVFMT      数字转换格式(默认值为%.6g)
    ENVIRON       环 境变量关联数组。
    ERRNO            最后一个系统错误的描述。
    FIELDWIDTHS         字 段宽度列表(用空格键分隔)。
    FILENAME               当前文件名。
    FNR                        同 NR,但相对于当前文件。
    FS                           字段分隔符(默认是任何空格)。
    IGNORECASE         如 果为真,则进行忽略大小写的匹配。
    NF                   当前记录中的字段数。
    NR                   当 前记录数。
    OFMT              数字的输出格式(默认值是%.6g)。
    OFS                 输 出字段分隔符(默认值是一个空格)。
    ORS                 输出记录分隔符(默认值是一个换行符)。
    RLENGTH         由 match函数所匹配的字符串的长度。
    RS                   记录分隔符(默认是一个换行符)。
    RSTART           由 match函数所匹配的字符串的第一个位置。
    SUBSEP           数组下标分隔符(默认值是34)。
    复制代码

    【运算符】

    复制代码
    = += -= *= /= %= ^= **=        赋值
    ?:                 C条件表达式
    ||                 逻 辑或
    &&             逻辑与
    ~ ~!             匹 配正则表达式和不匹配正则表达式
    < <= > >= != ==       关 系运算符
    空格          连接
    + -            加,减
    * / &          乘,除与求余
    + - !          一元加,减和逻辑非
    ^ ***        求幂
    ++ --        增加或减少,作为前缀或后缀
    $              字 段引用
    in             数组成员
    复制代码
    【字符串函数】
    复制代码
    sub          匹配记录中最大、最靠左边的子字符串的正则表达式,并用替换字符串替换这些字符串。如果没有指定目标字符串就默认使用整个记录。替换只发生在第一次匹配的 时候
    gsub        整个文档中进行匹配
    index       返回子字符串第一次被匹配的位置,偏移量从位置1开始
    substr      返回从位置1开始的子字符串,如果指定长度超过实际长度,就返回整个字符串
    split         可按给定的分隔符把字符串分割为一个数组。如果分隔符没提供,则按当前FS值进行分割
    length      返回记录的字符数
    match       返回在字符串中正则表达式位置的索引,如果找不到指定的正则表达式则返回0。match函数会设置内建变量RSTART为字符串中子字符串的开始位 置,RLENGTH为到子字符串末尾的字符个数。substr可利于这些变量来截取字符串
    toupper和tolower    可用于字符串大小间的转换,该功能只在gawk中有效
    复制代码
    【字符串函数】
    复制代码
    atan2(x,y)    y,x 范围内的余切
    cos(x)          余弦函数
    exp(x)         求 幂
    int(x)           取整
    log(x)          自然对 数
    rand()         随机数
    sin(x)          正弦
    sqrt(x)        平 方根
    srand(x)     x是rand()函数的种子
    int(x)          取 整,过程没有舍入
    rand()         产生一个大于等于0而小于1的随机数
    复制代码

    【使用范例】

    1、只查看 ett.txt 文件(共 100 行)内第 20 到第 30 行的内容
    awk ‘NR>19&&NR<31’ ett.txt
    awk ‘{ if (NR>19&&NR<31) print $0}’ ett.txt
    2、给文件内容加行号
    awk ‘{print NR,$0}’ /etc/inittab
    3、输出第24行并且加行号
    awk ‘NR==24 {print NR,$0}’ /etc/inittab
    4、标准写法
    awk -F '[ :]+' 'NR==2{print $(NF-1)}'  /etc/passwd
    相当于 awk 'BEGIN{FS="[ :]+"}NR==2{print $(NF-1)}' /etc/passwd
    awk 'BEGIN{RS="/"} {print $0}' /etc/passwd
    5、以一个或多个/为行的分割符,打印第二行的第二列,列的分隔符为默认的空格,并打印行号
    awk 'BEGIN{RS="[/]+"} NR==2{print NR,$2}' test  
    awk支持正则:
    6、以:为分隔符,打印第5列以s开头的一整行
    awk -F ":" '$5~/^s/{print $0}' /etc/passwd    
    7、以/为分隔符,匹配倒数第二行的s或者没有s后面是bin的整行
    awk -F "/" '$(NF-1)~/(s|)bin/' /etc/passwd    
    8、匹配第一列以ssh或者ftp或mysql开头或者结尾的行
    awk '$1~/^(ssh|ftp|mysql)$/{print $1,$2}' /etc/services    
    9、输出结果6 0 1 2
    echo "6@@@@@@@@@@@@@@@0=============1##############2" |awk -F '[@=#]+'  '{print $1,$2,$3,$4}' 
    10、
    awk 'BEGIN{print "---BEGIN---"} NR==2{print $2} END{print "---END----"}' xxx.conf

     11、awk统计百分比的问题

    例一:

      日志样子举例如下:
    复制代码
    awk '{
            count[$1]++; 
            if($2>400)above400[$1]++
        }
        END{
            for(i in count){
                print i, count[i], above400[i]/count[i]
            }
        }' < xxx.txt
    复制代码

    例二:

    统计一个文件的中所有的error的占比

    awk  '/error/{err++}END{print err,NR,err/NR*100"%" }' < xxx.txt

     12、关联数组访问问题

    a.txt和b.txt两个文件相同的两个字段(id|money),输出a和b文件中相同id并且b文件money值大的一行

    复制代码
    cat >>a.txt <<EOF 
    1|1
    3|3
    5|5
    7|7
    9|9
    EOF
    复制代码
    复制代码
    cat >>b.txt<<EOF
    1|1
    2|2
    3|30
    4|4
    5|5
    6|6
    7|70
    8|8
    9|9
    10|10
    EOF
    复制代码
    awk -F '|' 'BEGIN{ while(getline < "a.txt") { user_map[$1] = $2; } }
    {
        if ($1 in user_map) { if (user_map[$1] < $2) print $0; }
    }' b.txt

    注意:如果a.txt不存在,getline会返回-1,导致死循环我以前曾经碰上过因为这个原因导致程序挂死,所以特别提出来让大家注意

    13、99乘法表

    awk 'BEGIN{for(i=1;i<10;i++){for (j=1;j<=i;j++)printf "%d%s%d%s%d	",i,"x",j,"=",i*j;print}}'

    14、tomcat并发数

    netstat -an|grep 10050|awk '{count[$6]++} END{for (i in count) print(i,count[i])}'

    sed   老二

    【功能说明】

    Sed是Strem Editor(流编辑器)缩写,是操作、过滤和转换文本内容的强大工具。常用功能有增删改查,过滤,取行。

    参数

    -n             #取消默认输出
    -r             #使用扩展正则
    -i              #刷到磁盘
    -e             #执行多条sed指令
    -f              #指令放在文件里

    sed-command

    复制代码
    a    追加
    i     插入
    d    删除
    c    替换指定的行
    s    替换每一行匹配到的第一个字符
    g   替换每一行的全部
    p   输出
    w   另存文件
    e   执行bash命令
    q   不继续往下读取
    复制代码

    概括流程:Sed软件从文件或管道中读取一行,处理一行,输出一行;再读取一行,再处理一行,再输出一行……

    增删改查

    a 追加文本到指定行后

    i 插入文本到指定行前

    单行增加

    sed '2a 106,dandan,CSO' person.txt
    sed '2i 106,dandan,CSO' person.txt

    多行增加

    sed '2a 106,dandan,CSO
    107,bingbing,CCO' person.txt

    企业案例1:优化SSH配置(一键完成增加若干参数)

    在我们学习系统优化时,有一个优化点:更改ssh服务远程登录的配置。主要的操作是在ssh的配置文件加入下面5行文本。(下面参数的具体含义见其他课程。)

    Port 52113
    PermitRootLogin no
    PermitEmptyPasswords no
    UseDNS no
    GSSAPIAuthentication no

    我们可以使用vi命令编辑这个文本,但这样就比较麻烦,现在想一条命令增加5行文本到第13行前?

    sed -ir '13 i ####Chris-sshd-2016.5.4-youhua######
    Port 52113
    PermitRootLogin no
    PermitEmptyPasswords no
    UseDNS no
    GSSAPIAuthentication no
    #####--end--#######
    ' /etc/ssh/sshd_config

    地址用逗号分隔的,n1,n2可以用数字、正则表达式、或二者的组合表示。

    其他使用例子

    10{sed-commands}                          对第10行操作
    10,20{sed-commands}                     对10到20行操作,包括第10,20行
    10,+20{sed-commands}                  对10到30(10+20)行操作,包括第10,30行
    1~2{sed-commands}                       对1,3,5,7,……行操作
    10,${sed-commands}                      对10到最后一行($代表最后一行)操作,包括第10行
    /oldboy/{sed-commands}               对匹配oldboy的行操作
    /oldboy/,/Alex/{sed-commands}    对匹配oldboy的行到匹配Alex的行操作
    /oldboy/,${sed-commands}            对匹配oldboy的行到最后一行操作
    /oldboy/,10{sed-commands}         对匹配oldboy的行到第10行操作,注意:如果前10行没有匹配到oldboy,sed软件会显示10行以后的匹配oldboy的行,如果有。
    1,/Alex/{sed-commands}               对第1行到匹配Alex的行操作
    /oldboy/,+2{sed-commands}        对匹配oldboy的行到其后的2行操作

    删除指定的行

    sed 'd' person.txt                                       #删除全部
    sed '2d' person.txt                                     #删除第二行
    sed '2,5d' person.txt                                  #删除2到5行
    sed '3,$d' person.txt                                  #删除3到结尾
    sed '1~2d' person.txt                                #删除1,3,5行
    sed '1,+2d' person.txt                               #删除1,2,3
    sed '/zhangyao/d' person.txt                    #删除匹配的zhangyao行
    sed '/oldboy/,/Alex/d' person.txt             #删除匹配oldboy到Alex行
    sed '/oldboy/,3d' person.txt                     #删除从匹配oldboy的3行

    企业案例2:打印文件内容但不包含oldboy

    sed '/oldboy/d' person.txt                       #删除包含"oldboy"的行

    按行替换

    用新行取代旧行

    sed '2c 106,dandan,CSO' person.txt          #替换第2行的内容

    文本替换

    s:单独使用,将每一行中第一处匹配的字符串进行替换

    g:每一行进行全部替换

    -i:修改文件内容

    sed软件替换模型(方框▇被替换成三角▲)

    sed -i 's/▇/▲/g' oldboy.log 
    sed -i 's#▇#▲#g' oldboy.log

    企业案例3:指定行修改配置文件

    指定行精确修改配置文件,这样可以防止修改多了地方。

    sed '3s#0#9#' person.txt

    变量替换

    x=a
    y=b
    echo $x $y
    sed s#$x#$y#g test.txt

    分组替换( )和1的使用说明

    sed软件的( )的功能可以记住正则表达式的一部分,其中,1为第一个记住的模式即第一个小括号中的匹配内容,2第二记住的模式,即第二个小括号中的匹配内容,sed最多可以记住9个。

    例:echo I am oldboy teacher.如果想保留这一行的单词oldboy,删除剩下的部分,使用圆括号标记想保留的部分。

    echo I am oldboy teacher. |sed 's#^.*am ([a-z].*) tea.*$#1#g'
    echo I am oldboy teacher. |sed -r 's#^.*am ([a-z].*) tea.*$#1#g'
    echo I am oldboy teacher. |sed -r 's#I (.*) (.*) teacher.#12#g'

    命令说明

    思路:用oldboy字符替换I am oldboy teacher.

    下面解释用□代替空格

    1. ^.*am□ –>这句的意思是以任意字符开头到am□为止,匹配文件中的I am□字符串;
    2. ([a-z].*)□–>这句的外壳就是括号(),里面的[a-z]表示匹配26个字母的任何一个,[a-z].*合起来就是匹配任意多个字符,本题来说就是匹配oldboy字符串,由于oldboy字符串是需要保留的,因此用括号括起来匹配,后面通过1来取oldboy字符串。
    3. □tea.*$–>表示以空格tea起始,任意字符结尾,实际就是匹配oldboy字符串后,紧接着的字符串□teacher.;
    4. 后面被替换的内容中的1就是取前面的括号里的内容了,也就是我们要的oldboy字符串。
    5. ()是扩展正则表达式的元字符,sed软件默认识别基本正则表达式,想要使用扩展正则需要使用转义,即()。
    6. sed使用-r选项则可以识别扩展正则表达式,此时使用()反而会出错。

    企业案例4:系统开机启动项优化

    chkconfig --list|grep "3:on"|grep -vE "sshd|crond|network|rsyslog|sysstat"|awk '{print $1}'|sed -r 's#^(.*)#chkconfig 1 off#g'|bash
    chkconfig --list|grep "3:on"

    特殊符号&代表被替换的内容

    #→将1到3行的C替换为--C--

    sed '1,3s#C#--&--#g' person.txt         #→此处&等于C

    企业案例5:批量重命名文件

    for i in `seq 5`;do touch stu_102999_${i}_finished.jpg;done 
    ls |sed -r 's/(.*)_finished(.*)/mv  &  1_finish2/e' 

    p 输出指定内容,但默认会输出2次匹配的结果,因此使用n取消默认输出

    按行查询

    sed '2p' person.txt
    sed -n '2p' person.txt
    sed -n '2,3p' person.txt
    sed -n '1~2p' person.txt
    sed -n 'p' person.txt

    按字符串查询

    sed -n '/CTO/p' person.txt
    sed -n '/CTO/,/CFO/p' person.txt

    混合查询

    sed -n '2,/CFO/p' person.txt
    sed -n '/feixue/,2p' person.txt
    #特殊情况,前两行没有匹配到feixue,就向后匹配,如果匹配到feixue就打印此行。

    其他功能

    备份功能

    sed -i.bak '$a 1111111111' xxx.txt

    备份xxx.txt文件为xxx.txt.bak,修改源文件,最后一行添加111111111

    另存功能

    sed 's/sb/SB/g w new.txt' xxx.txt 

    把sb替换成SB的整行输出到new.txt中

    大小写转换

    L    #全部转换成小写

    l     #单个转换成小写

    U    #全部转换成大写

    u    #单个转换成大写

    E    #需要和U和L一起使用,关闭U和L的功能

    sed -r 's/(.*),(.*),(.*)/L3,E1,U2/g' xxx.txt

    执行多条sed指令

    sed -e '3,$d' -e 's#10#01#g' xxx.txt
    sed '3,$d; s#10#01#g' xxx.txt

    打印不可见字符l

    sed -n 'l' xxx.txt

    abc替换ABC(一一对应)

    tr 'abc' 'ABC' xxx.txt
    sed 'y#abc#ABC#' xxx.txt

    可以操作多个文件

    sed 'y#abc#ABC#' xxx.txt 222.txt

    模拟其他命令

    创建svn库的时候自动取消#号和修改路径
    sed -i -r '12,13s/# //g' svnserve.conf
    sed -i -r '20s/^# (.*)/1/g' svnserve.conf
    sed -i -r '27s/^# (.*)/1/g' svnserve.conf
    sed -i -r '12,13s/^# (.*)/1/g' svnserve.conf
    sed -i -r  '32s/# (.*=)(.*)/1 /usr/svnData//' svnserve.conf
    一条命令执行(加传参)
    SvnPath='zhangzhicheng'
    sed -i -r -e '20s/^# (.*)/1/g' -e '27s/^# (.*)/1/g' -e '12,13s/^# (.*)/1/g' -e "32s/# (.*=)(.*)/1 /usr/svnData/$SvnPath/" svnserve.conf

    grep 老末

    【功能说明】

    三剑客老三。搜索文本,过滤文本字符串 –v取反

    【选项说明】

    参数选项

    解释说明(带※的为重点)

    -V

    取反,读出指定的内容之外的内容

    -A

    打印后面n行的内容

    -B

    打印前面n行的内容

    -C

    打印前后各n行的内容

    -n

    输出行行号

    -E(egrep)

    使用扩展正则表达式 

    -o

    只输出匹配到的结果

    -i

    忽略大小写

    -a

    当grep认为是二进制文件的时候加-a

    【基础范例】

    例子1:已知文件 test.txt 内容为:

    test

    liyao

    oldboy

    请给出输出 test.txt 文件内容时,不包含 oldboy 字符串的命令。

    grep –v oldboy test.txt

    例子2:过滤出/etc/services 文件包含 3306 或 1521 两数据库端口的行的内容

    grep –E “3306|1521” /etc/services

    例子3:

    【技巧例子】

    消除文件空行:

    grep -v '^$' test.txt
    egrep -o "^[^:]+" xxx.txt         #匹配开头以非:的行,并输出匹配的内容(-o不是整行输出)
  • 相关阅读:
    IIS Express中添加MIME
    js立即执行函数IIFE(Immediatelyinvokedfunctionexpression)的几种写法
    笑话一则
    字符串操作类 NET代码积累之一
    UrlRewriter使用详解
    压缩和解压缩的方法 from Byte[]
    C#日期格式化
    JavaScript模拟进度条
    让visual studio 2005 自动为类加版权
    godaddy免费空间完美安装部署dedecms
  • 原文地址:https://www.cnblogs.com/sunsky303/p/8675981.html
Copyright © 2011-2022 走看看