zoukankan      html  css  js  c++  java
  • AWK的介绍学习

    第一节、awk的工作流程和基本用法
    1.awk介绍
    awk是一种报表生成器,就是对文件进行格式化处理的,这里的格式化不是文件系统的格式化,而是对文件内容进行各种“排版”,进而格式化显示。
    在linux之上我们使用的是GNU awk简称gawk,并且gawk其实就是awk的链接文件,因此在系统上使用awk和gawk是一样。
    通过man awk可以取得相关功能说明,还可以知道,gawk是一种过程式编程语言,支持条件判断、数组、循环等各种编程语言中所有可以使用的功能,因此我们还可以把awk称为一种脚本语言解释器。

    2.awk基本用法和工作原理
    gawk - pattern scanning and processing language:(模式扫描和处理语言)

    基本用法:
    
    格式1:awk [options] -f progfile [--] file ...
    格式2:awk [options] [--] 'program' file ...
    格式3awk [options] 'BEGIN{ action;… } pattern{ action;… } END{ action;… }' file ...
    -f progfile,--file=progfile:从文件中来读取awk 的program
    -F fs,--field-separator=fs:指明输入时用到的字段分割符
    -v var=val,--assign=var=val:在执行program之前来定义变量
    program:相当于编程语言,也就是处理后面文件的一系列操作语句
    progfile:带有program或BEGIN等操作语句内容的文件
    BEGIN:读取输入流前进行操作的标志
    END:输入流读取完后进行操作的标志
    pattern:模式,对输入流进行操作,实际上paogram就代表这pattern部分
    action:动作语言,由多种语句组成,语句间用分号分割
    工作原理:
    从上面可以看到看似有三个格式,实际上总的来说就一个格式,就是格式3,因为格式1和2展开后,也就是格式3。
    
    格式:awk [options] 'BEGIN{ action;… } pattern{ action;… } END{ action;… }' file ...
    
    第一步:执行[option]相关内容,也就是-f,-F,-v选项内容。
    第二步:执行BEGIN{action;… } 语句块中的语句。BEGIN 语句块在awk开始从输入流中读取行之前被执行,这是一个可选的语句块,比如变量初始化、打印输出表格的表头等语句通常可以写在BEGIN 语句块中。
    第三步:从文件或标准输入(stdin) 读取每一行,然后执行pattern{action;… }语句块,它逐行扫描文件,从第一行到最后一行重复这个过程,直到文件全部被读取完毕。pattern语句块中的通用命令是最重要的部分,也是可选的。如果没有提供pattern 语句块,则默认执行{ print } ,即打印每一个读取到的行,awk 读取的每一行都会执行该语句块。
    第四步:当读至输入流末尾时,也就是所有行都被读取完执行完后,再执行END{action;…} 语句块。END 语句块在awk从输入流中读取完所有的行之后即被执行,比如打印所有行的分析结果这类信息汇总都是在END 语句块中完成,它也是一个可选语句块。
    

    3.实例

      who | awk '/root/{print $1} 
      awk -F':' '{print $1}' /etc/passwd
      awk '/root/{print $1,$2}' /etc/passwd
      awk -F':' '/root/{print $1,$2}' /etc/passwd
      awk -F':' '/root/{print $1,$7}' /etc/passwd
    

    第二节、操作符的使用
    对于使用 awk 命令的用户来说,处理一行文本中的数字或者字符串时,使用比较运算符来过滤文本和字符串是十分方便的。下面的部分我们介绍"awk"的比较运算符。

    awk 中的比较运算符用于比较字符串和或者数值,包括以下类型:

    符号 作用

    大于
    < 小于
    = 大于等于
    <= 小于等于
    == 等于
    != 不等于
    some_value ~ / pattern/ 如果 some_value 匹配模式 pattern,则返回 true
    some_value !~ / pattern/ 如果 some_value 不匹配模式 pattern,则返回 true
    && 链接符(and)
    || 链接符 (or)

    实例应用

    1、~和!~的应用,匹配字段
    [root@tast sbin]# awk -F':' '$1~/root/{print $1,$7}' /etc/passwd  #$1中有root字段的打印$1,$7
    root /bin/bash
    [root@tast sbin]# awk -F':' '$1~/ssh/{print $1,$7}' /etc/passwd  #$1中有ssh字段的打印$1,$7
    sshd /sbin/nologin
    [root@tast sbin]# awk -F':' '$1!~/ssh/{print $1,$7}' /etc/passwd |tail -n 2
    tcpdump /sbin/nologin
    hzy /bin/bash  #$1中没有ssh字段的打印$1,$7
    
    2、==和!=的用法,完全匹配字段
    [root@tast sbin]# awk -F':' '$1=="root"{print $1,$7}' /etc/passwd 
    root /bin/bash
    [root@tast sbin]# awk -F':' '$1!="root"{print $1,$7}' /etc/passwd |tail -n 2
    tcpdump /sbin/nologin
    hzy /bin/bash
    
    3、>=和<=的用法
    [root@tast sbin]# awk -F':' '$3<=0{print $1,$7}' /etc/passwd
    root /bin/bash
    [root@tast sbin]# awk -F':' '$3>=1000{print $1,$7}' /etc/passwd
    nfsnobody /sbin/nologin
    hzy /bin/bash
    
    4、&&和||链接符的用法
    [root@tast sbin]# awk -F':' '$1=="root"&&$3<=0{print $1,$7}' /etc/passwd
    root /bin/bash
    [root@tast sbin]# awk -F':' '$1=="root"||$3>=1000{print $1,$7}' /etc/passwd
    root /bin/bash
    nfsnobody /sbin/nologin
    hzy /bin/bash
    
    注:操作命令都要写在{}里,如果{}出现了多个命令,每个命令用;隔开
    5、++和--的用法
    [root@tast sbin]# awk -F':' '$1~/root/{$3++;print $1,$3}' /etc/passwd
    root 1
    [root@tast sbin]# awk -F':' '$1~/root/{$3--;print $1,$3}' /etc/passwd
    root -1
    ...
    

    第三节、BEGIN和END
    在Unix awk中两个特别的表达式,BEGIN和END,这两者都可用于pattern中(参考前面的awk语法),提供BEGIN和END的作用是给程序赋予初始状态和在程序结束之后执行一些扫尾的工作。
    使用BEGIN来显示变量和预置(初始化)变量,使用END来输出最终结果
    案例介绍

    1、awk 'BEGIN{}/模式/{操作}' file
      打印字符
    [root@tast sbin]# awk -F':' 'BEGIN{print "-----------------"}$1~/root/{print $1,$7}' /etc/passwd
    -----------------
    root /bin/bash
      设置变量
    [root@tast sbin]# awk 'BEGIN{FS=":";AA=0}$1~/root/{print $AA}' /etc/passwd
    root:x:0:0:root:/root:/bin/bash
    2、awk '/模式/{操作}/END/{操作}' file
      打印一些字符
    [root@tast sbin]# awk -F':' '$3~/0/{print $0}END{print "----------"}' /etc/passwd
    root:x:0:0:root:/root:/bin/bash
    qemu:x:107:107:qemu user:/:/sbin/nologin
    sssd:x:990:984:User for sssd:/:/sbin/nologin
    avahi:x:70:70:Avahi mDNS/DNS-SD Stack:/var/run/avahi-daemon:/sbin/nologin
    hzy:x:1000:1000:hzy:/home/hzy:/bin/bash
    ----------
      计算汇总
    [root@tast sbin]# awk 'BEGIN{FS=":"}{Q+=$3}END{print "SUM=",Q}' /etc/passwd
    SUM= 79229  #计算所有用户的UID和
    

    第四节、常见的内置变量

    内置变量表
    属性 说明
    $0 当前记录(作为单个变量)
    $1~$n 当前记录的第n个字段,字段间由FS分隔
    FS 输入字段分隔符 默认是空格
    NF 当前记录中的字段个数,就是有多少列
    NR 已经读出的记录数,就是行号,从1开始
    RS 输入的记录他隔符默 认为换行符
    OFS 输出字段分隔符 默认也是空格
    ORS 输出的记录分隔符,默认为换行符
    ARGC 命令行参数个数
    ARGV 命令行参数数组
    FILENAME 当前输入文件的名字
    IGNORECASE 如果为真,则进行忽略大小写的匹配
    ARGIND 当前被处理文件的ARGV标志符
    CONVFMT 数字转换格式 %.6g
    ENVIRON UNIX环境变量
    ERRNO UNIX系统错误消息
    FIELDWIDTHS 输入字段宽度的空白分隔字符串
    FNR 当前记录数
    OFMT 数字的输出格式 %.6g
    RSTART 被匹配函数匹配的字符串首
    RLENGTH 被匹配函数匹配的字符串长度
    SUBSEP 34

    案例

    1.FS和OFS
    [root@tast sbin]# awk -F':' 'BEGIN{OFS="----"}$1~/root/{print $1,$7}' /etc/passwd
    root----/bin/bash
    2.NF
    [root@tast sbin]# awk -F':' '{print NF}' /etc/passwd |tail -n 2
    7
    7
    [root@tast sbin]# awk -F':' '{print $NF}' /etc/passwd |tail -n 2
    /sbin/nologin
    /bin/bash
    [root@tast sbin]# awk -F':' '{print $(NF-1)}' /etc/passwd |tail -n 2
    /
    /home/hzy
    3.RS 默认值就是"
    换行"
    [root@tast sbin]# awk 'BEGIN{FS=":";RS="
    ";OFS="--------"}$3~/0/{print $1,$7}' /etc/passwd
    root--------/bin/bash
    qemu--------/sbin/nologin
    sssd--------/sbin/nologin
    avahi--------/sbin/nologin
    hzy--------/bin/bash
    4.FILENAME
    [root@tast sbin]# awk -F":" '{print FILENAME}' /etc/passwd
    /etc/passwd
    /etc/passwd
    5.NR
    [root@tast sbin]# awk -F':' '$1~/root/||$3~/0/{print NR}' /etc/passwd
    1
    30
    36
    40
    43
    [root@tast sbin]# awk -F':' '$1~/root/||$3~/0/{print $0}' /etc/passwd
    root:x:0:0:root:/root:/bin/bash
    qemu:x:107:107:qemu user:/:/sbin/nologin
    sssd:x:990:984:User for sssd:/:/sbin/nologin
    avahi:x:70:70:Avahi mDNS/DNS-SD Stack:/var/run/avahi-daemon:/sbin/nologin
    hzy:x:1000:1000:hzy:/home/hzy:/bin/bash
    6.FNR
    [root@tast sbin]# cat /etc/passwd | head -n 2 > aa.txt
    [root@tast sbin]# cat /etc/passwd | tail -n 2 > bb.txt
    [root@tast sbin]# awk -F':' '{print NR,$1,$7,FNR}' aa.txt bb.txt 
    1 root /bin/bash 1
    2 bin /sbin/nologin 2
    3 tcpdump /sbin/nologin 1
    4 hzy /bin/bash 2
    [root@tast sbin]# awk -F':' '{print NR,$1,$7}' aa.txt bb.txt 
    1 root /bin/bash
    2 bin /sbin/nologin
    3 tcpdump /sbin/nologin
    4 hzy /bin/bash
    [root@tast sbin]# awk -F':' 'NR==FNR{print $1,FILENEAME}NR!=FNR{print $1,FILENAME}' aa.txt bb.txt 
    root 
    bin 
    tcpdump bb.txt
    hzy bb.txt
    

    第五节、awk的判断和循环
    1.awk条件语句
    条件语句
    awk中的条件语句是从C语言中借鉴过来的,可控制程序的流程
    if语句

    格式:
    {if (expression){
    statement; statement; ...
    }
    else{
    statement; statement; ...
    }
    }

    2.while循环
    awk while循环执行一系列需要重复执行的动作, 只要循环条件为true, 就一直保持循环。

    语法:
    while(condition) {
      actio
    }

    while首先检查condition,如果是true, 执行actions,执行完后,再次检查condition,如果是true, 再次执行actions,直到actions为false时, 退出循环
    do while循环
    do while循环至少会执行一次,如果条件为true, 它将一直执行下去。

    语法:
    do {
      action
    } while(condition)

    3.for循环
    awk的for循环和while循环一样实用

    语法:
    for(initialization; condition; increment/decrement) {
      action
    }

    for循环一开始就执行initialization, 然后检查condition, 如果condition为true, 执行actions, 然后执行increment或decrement
    4.break语句
    break语句用来跳出它所在的最内层的循环, break语句只有在循环中才能使用。
    5.continue语句
    continue语句跳过后面剩余的循环部分,立即进入下次循环, continue只能用在循环当中。
    6.案例分析

    for循环
    [root@tast sbin]# awk -F':' '$1~/root/{print "-------------------";for(i=1;i<=NF;i++){print $i}print"---------end-------------"}' /etc/passwd
    -------------------
    root
    x
    0
    0
    root
    /root
    /bin/bash
    ---------end-------------
    [root@tast sbin]# awk -F':' '$1~/hzy/{for(i=1;i<=NF;i++){print $i}}' /etc/passwd
    hzy
    x
    1000
    1000
    hzy
    /home/hzy
    /bin/bash
    if判断
    [root@tast sbin]# awk -F':' '{for(i=1;i<=NF;i++){if($1 ~ /root/){print $i}}}' /etc/passwd
    root
    x
    0
    0
    root
    /root
    /bin/bash
    [root@tast sbin]# awk -F':' '{for(i=1;i<=NF;i++){if($3<=0||$3>=1000){print $i}}}' /etc/passwd
    root
    x
    0
    0
    root
    /root
    /bin/bash
    nfsnobody
    x
    65534
    65534
    Anonymous NFS User
    /var/lib/nfs
    /sbin/nologin
    hzy
    x
    1000
    1000
    hzy
    /home/hzy
    /bin/bash
    [root@tast sbin]# df |awk '{if($3>=10000){print "----",$0}}'
    ---- 文件系统                   1K-块    已用     可用 已用% 挂载点
    ---- /dev/mapper/centos-root 38770180 4179624 34590556   11% /
    ---- tmpfs                     932640   22336   910304    3% /run
    ---- /dev/sda1                1038336  173320   865016   17% /boot
    while循环
    [root@tast sbin]# awk -F':' '{i=1;{if($1~/root/){while(i<=NF){print $i,i++}}}}' /etc/passwd
    root 1
    x 2
    0 3
    0 4
    root 5
    /root 6
    /bin/bash 7
    break跳出循环
    [root@tast sbin]# echo -e "1 2 3 4 5 6 
    7 8 9" |awk '{for(i=1;i<=NF;i++){if($i==4){break}print $i}}'
    1
    2
    3
    7
    8
    9
    [root@tast sbin]# echo -e "1 2 3 4 5 6 
    7 8 9" |awk '{for(i=1;i<=NF;i++){if($i>=4){break}print $i}}'
    1
    2
    3
    ...
    

    第六节、组数
    数组格式
    数组是一个包含一系列元素的表.

    格式如下:
    abc[1]=”xiaohong”
    abc[2]=”xiaolan”
    案例

    [root@tast sbin]# awk -F: '{{a[NR]=$1;}{print NR,a[NR];}}' /etc/passwd |tail -n 2
    42 tcpdump
    43 hzy
    [root@tast sbin]# awk '{a[$1]++}END{for(i in a){print a[i],i}}' ip.txt  |sort -nr
    6 192.168.3.3
    5 192.168.3.2
    4 192.168.3.6
    2 192.168.3.1
    1 192.168.3.7
    1 192.168.3.5
    1 192.168.3.4
    [root@tab0 ~]# sort a |uniq  -c | sort -nr
          6 192.168.3.3
          5 192.168.3.2
          4 192.168.3.6
          2 192.168.3.1
          1 192.168.3.7
          1 192.168.3.5
          1 192.168.3.4
    [root@tast sbin]# cat ip.txt 
    192.168.3.1
    192.168.3.2
    192.168.3.3
    192.168.3.4
    192.168.3.5
    192.168.3.6
    192.168.3.7
    192.168.3.1
    192.168.3.2
    192.168.3.3
    192.168.3.3
    192.168.3.3
    192.168.3.2
    192.168.3.3
    192.168.3.6
    192.168.3.6
    192.168.3.6
    192.168.3.3
    192.168.3.2
    192.168.3.2
    ·
    

    第七节、其他命令(函数)
    sub("old","new")
    sub("old","new",目标)

    [root@tast sbin]# awk '{sub("192.168.3.1","haha");print $0}' ip.txt 
    haha
    192.168.3.2
    192.168.3.3
    192.168.3.4
    192.168.3.5
    192.168.3.6
    192.168.3.7
    haha
    192.168.3.2
    192.168.3.3
    

    length计算某个字符的长度

    [root@tast sbin]# awk -F':' '{print $1,length($1)}' /etc/passwd |tail -n 2
    tcpdump 7
    hzy 3
    

    substr截取字符串

    [root@tast sbin]# awk -F':' '{print substr($1,3),$1;OFS="-----------"}' /etc/passwd |tail -n 2
    pdump-----------tcpdump
    y-----------hzy
    

    split把指定的字符串,安装某种分隔符,分割成数组

    [root@tast sbin]# echo '' | awk '{split ("2013-14-250",aa,"-");print aa[1]}'
    2013
    [root@tast sbin]# echo '' | awk '{split ("2013-14-250",aa,"-");print aa[2]}'
    14
    [root@tast sbin]# awk '{split($0,aa,":");print aa[1]}' /etc/passwd |tail -n 2
    tcpdump
    hzy
    

    getline读取文件的行或命令的行

    [root@tast sbin]# echo ''|awk '{while("ls /boot" |getline xx) {print xx}}' 
    config-3.10.0-862.el7.x86_64
    efi
    grub
    grub2
    initramfs-0-rescue-87b3def90b5c4a4abda5f94f0b6c94c7.img
    initramfs-3.10.0-862.el7.x86_64.img
    initramfs-3.10.0-862.el7.x86_64kdump.img
    symvers-3.10.0-862.el7.x86_64.gz
    System.map-3.10.0-862.el7.x86_64
    vmlinuz-0-rescue-87b3def90b5c4a4abda5f94f0b6c94c7
    vmlinuz-3.10.0-862.el7.x86_64
    [root@tast sbin]# echo '' | awk '{print "----input you name";getline name<"/dev/tty";print "Ok"name}'
    ----input you name
    xiaohong
    Okxiaohong
    

    match函数是用于个性化定制搜索模式

    cat test
    this is wang,not wan
    that is chen,not che
    this is chen,and wang,not wan che
    awk '{match($0,/.+is([^,]+).+not(.+)/,a);print a[1],a[2]}' test
     wang  wan
     chen  che
     chen  wan che
    

    第八节、格式化输出
    f 
    printf的用法(默认是不带换行的)

    [root@tast sbin]# awk -F':' '{printf "%-10s  %s
    ",$1,$7}' /etc/passwd |tail -n 2
    tcpdump     /sbin/nologin
    hzy         /bin/bash
    [root@tast sbin]# awk -F':' '{printf "|%-10s  |%s
    ",$1,$3}' /etc/passwd |tail -n 2 
    |tcpdump     |72
    |hzy         |1000
    ···
    

    END

  • 相关阅读:
    HearthBuddy投降插件2019-11-01的使用
    正则表达式在线分析 regex online analyzer
    Tips to write better Conditionals in JavaScript
    The fileSyncDll.ps1 is not digitally signed. You cannot run this script on the current system.
    Cannot capture jmeter traffic in fiddler
    JMETER + POST + anti-forgery token
    input type color
    HearthBuddy修改系统时间
    What are all the possible values for HTTP “Content-Type” header?
    UDK性能优化
  • 原文地址:https://www.cnblogs.com/haozheyu/p/10068510.html
Copyright © 2011-2022 走看看