zoukankan      html  css  js  c++  java
  • Linux --- awk

    这里提到awk,相信写shell的朋友都会接触到。AWK 是一种用于处理文本的编程语言工具。AWK 提供了极其强大的功能:

    1. 可以进行正则表达式的匹配
    2. 样式装入
    3. 流控制
    4. 数学运算符
    5. 进程控制语句
    6. 内置的变量和函数

    可以把awk看作一门完全的程序设计语言,它处理文本的速度是快得惊人的。现在很多基于shell 日志分析工具都可以用它完成。设计简单,速度表现很好。 涉及到以上六个方面内容,我会在此加以介绍。

    1、awk 内置变量使用介绍(转载:http://www.cnblogs.com/chengmo/archive/2010/10/06/1844818.html)

    awk是个优秀文本处理工具,可以说是一门程序设计语言。下面是awk内置变量。

    1-1.内置变量表

    属性 说明
    $0 当前记录(作为单个变量)
    $1~$n 当前记录的第n个字段,字段间由FS分隔
    FS 输入字段分隔符 默认是空格
    NF 当前记录中的字段个数,就是有多少列
    NR 已经读出的记录数,就是行号,从1开始
    RS 输入的记录他隔符默 认为换行符
    OFS 输出字段分隔符 默认也是空格
    ORS 输出的记录分隔符,默认为换行符
    ARGC 命令行参数个数
    ARGV 命令行参数数组
    FILENAME 当前输入文件的名字
    IGNORECASE 如果为真,则进行忽略大小写的匹配
    ARGIND 当前被处理文件的ARGV标志符
    CONVFMT 数字转换格式 %.6g
    ENVIRON UNIX环境变量
    ERRNO UNIX系统错误消息
    FIELDWIDTHS 输入字段宽度的空白分隔字符串
    FNR 当前记录数
    OFMT 数字的输出格式 %.6g
    RSTART 被匹配函数匹配的字符串首
    RLENGTH 被匹配函数匹配的字符串长度
    SUBSEP 34

    1-2.实例

    1、常用操作

    [chengmo@localhost ~]$ awk '/^root/{print $0}' /etc/passwd 
    root:x:0:0:root:/root:/bin/bash

    /^root/ 为选择表达式,$0代表是逐行

    2、设置字段分隔符号(FS使用方法)

    [chengmo@localhost ~]$ awk 'BEGIN{FS=":"}/^root/{print $1,$NF}' /etc/passwd
    root /bin/bash

    FS为字段分隔符,可以自己设置,默认是空格,因为passwd里面是”:”分隔,所以需要修改默认分隔符。NF是字段总数,$0代表当前行记录,$1-$n是当前行,各个字段对应值。

    3、记录条数(NR,FNR使用方法)

    [chengmo@localhost ~]$ awk 'BEGIN{FS=":"}{print NR,$1,$NF}' /etc/passwd
    1 root /bin/bash
    2 bin /sbin/nologin
    3 daemon /sbin/nologin
    4 adm /sbin/nologin
    5 lp /sbin/nologin
    6 sync /bin/sync
    7 shutdown /sbin/shutdown
    ……

    NR得到当前记录所在行

    4、设置输出字段分隔符(OFS使用方法)

    [chengmo@localhost ~]$ awk 'BEGIN{FS=":";OFS="^^"}/^root/{print FNR,$1,$NF}' /etc/passwd
    1^^root^^/bin/bash

    OFS设置默认字段分隔符

    5、设置输出行记录分隔符(ORS使用方法)

    [chengmo@localhost ~]$ awk 'BEGIN{FS=":";ORS="^^"}{print FNR,$1,$NF}' /etc/passwd       
    1 root /bin/bash^^2 bin /sbin/nologin^^3 daemon /sbin/nologin^^4 adm /sbin/nologin^^5 lp /sbin/nologin

    从上面看,ORS默认是换行符,这里修改为:”^^”,所有行之间用”^^”分隔了。

    6、输入参数获取(ARGC ,ARGV使用)

    [chengmo@localhost ~]$ awk 'BEGIN{FS=":";print "ARGC="ARGC;for(k in ARGV) {print k"="ARGV[k]; }}' /etc/passwd
    ARGC=2
    0=awk
    1=/etc/passwd

    ARGC得到所有输入参数个数,ARGV获得输入参数内容,是一个数组。

    7、获得传入的文件名(FILENAME使用)

    [chengmo@localhost ~]$ awk 'BEGIN{FS=":";print FILENAME}{print FILENAME}' /etc/passwd

    /etc/passwd

    FILENAME,$0-$N,NF 不能使用在BEGIN中,BEGIN中不能获得任何与文件记录操作的变量。

    8、获得linux环境变量(ENVIRON使用)

    [chengmo@localhost ~]$ awk 'BEGIN{print ENVIRON["PATH"];}' /etc/passwd    
    /usr/lib/qt-3.3/bin:/usr/kerberos/bin:/usr/lib/ccache:/usr/lib/icecc/bin:/usr/local/bin:/bin:/usr/bin:/usr/local/sbin:/usr/sbin:/sbin:/usr/java/jdk1.5.0_17/bin:/usr/java/jdk1.5.0_17/jre/bin:/usr/local/mysql/bin:/home/web97/bin

    ENVIRON是子典型数组,可以通过对应键值获得它的值。

    9、输出数据格式设置:(OFMT使用)

    [chengmo@localhost ~]$ awk 'BEGIN{OFMT="%.3f";print 2/3,123.11111111;}' /etc/passwd   
    0.667 123.111

    OFMT默认输出格式是:%.6g 保留六位小数,这里修改OFMT会修改默认数据输出格式。

    10、按宽度指定分隔符(FIELDWIDTHS使用)

    [chengmo@localhost ~]$ echo 20100117054932 | awk 'BEGIN{FIELDWIDTHS="4 2 2 2 2 3"}{print $1"-"$2"-"$3,$4":"$5":"$6}'
    2010-01-17 05:49:32

    FIELDWIDTHS其格式为空格分隔的一串数字,用以对记录进行域的分隔,FIELDWIDTHS="4 2 2 2 2 2"就表示$1宽度是4,$2是2,$3是2  .... 。这个时候会忽略:FS分隔符。

    11、RSTART RLENGTH使用

    [chengmo@localhost ~]$ awk 'BEGIN{start=match("this is a test",/[a-z]+$/); print start, RSTART, RLENGTH }'
    11 11 4
    [chengmo@localhost ~]$ awk 'BEGIN{start=match("this is a test",/^[a-z]+$/); print start, RSTART, RLENGTH }'
    0 0 –1

    RSTART 被匹配正则表达式首位置,RLENGTH 匹配字符长度,没有找到为-1.

    以上是:awk的一些内置变量使用,希望有什么问题可以与我交流。

    2.Linux shell awk 流程控制语句(if  for  while do)详细介绍

    在linux awk的 while、do-while和for语句中允许使用break,continue语句来控制流程走向,也允许使用exit这样的语句来退出。break中断当前正在执行的循环并跳到循环外执行下一条语句。if 是流程选择用法。 awk中,流程控制语句,语法结构,与c语言类型。下面是各个语句用法。

    2-1.条件判断语句(if)

    if(表达式) #if ( Variable in Array )
    语句1
    else
    语句2

    格式中"语句1"可以是多个语句,如果你为了方便Unix awk判断也方便你自已阅读,你最好将多个语句用{}括起来。Unix awk分枝结构允许嵌套,其格式为:

    if(表达式)

    {语句1}

    else if(表达式)
    {语句2}
    else
    {语句3}

    [chengmo@localhost nginx]# awk 'BEGIN{ 
    test=100;
    if(test>90)
    {
        print "very good";
    }
    else if(test>60)
    {
        print "good";
    }
    else
    {
        print "no pass";
    }
    }'

    very good

    每条命令语句后面可以用“;”号结尾。

    2-2.循环语句(while,for,do)

    1.while语句

    格式:

    while(表达式)

    {语句}

    例子:

    [chengmo@localhost nginx]# awk 'BEGIN{ 
    test=100;
    total=0;
    while(i<=test)
    {
        total+=i;
        i++;
    }
    print total;
    }'
    5050

    2.for 循环

    for循环有两种格式:

    格式1:

    for(变量 in 数组)

    {语句}

    例子:

    [chengmo@localhost nginx]# awk 'BEGIN{ 
    for(k in ENVIRON)
    {
        print k"="ENVIRON[k];
    }
    }'

    AWKPATH=.:/usr/share/awk
    OLDPWD=/home/web97
    SSH_ASKPASS=/usr/libexec/openssh/gnome-ssh-askpass
    SELINUX_LEVEL_REQUESTED=
    SELINUX_ROLE_REQUESTED=
    LANG=zh_CN.GB2312

    。。。。。。

    说明:ENVIRON 是awk常量,是子典型数组。

    格式2:

    for(变量;条件;表达式)

    {语句}

    例子:

    [chengmo@localhost nginx]# awk 'BEGIN{ 
    total=0;
    for(i=0;i<=100;i++)
    {
        total+=i;
    }
    print total;
    }'

    5050

    3.do循环

    格式:

    do

    {语句}while(条件)

    例子:

    [chengmo@localhost nginx]# awk 'BEGIN{ 
    total=0;
    i=0;
    do
    {
        total+=i;
        i++;
    }while(i<=100)
    print total;
    }'
    5050

    以上为awk流程控制语句,从语法上面大家可以看到,与c语言是一样的。有了这些语句,其实很多shell程序都可以交给awk,而且性能是非常快的。

    break 当 break 语句用于 while 或 for 语句时,导致退出程序循环。
    continue 当 continue 语句用于 while 或 for 语句时,使程序循环移动到下一个迭代。
    next 能能够导致读入下一个输入行,并返回到脚本的顶部。这可以避免对当前输入行执行其他的操作过程。
    exit 语句使主输入循环退出并将控制转移到END,如果END存在的话。如果没有定义END规则,或在END中应用exit语句,则终止脚本的执行。
       

    2-3、性能比较

    [chengmo@localhost nginx]# time (awk 'BEGIN{ total=0;for(i=0;i<=10000;i++){total+=i;}print total;}')
    50005000

    real    0m0.003s
    user    0m0.003s
    sys     0m0.000s
    [chengmo@localhost nginx]# time(total=0;for i in $(seq 10000);do total=$(($total+i));done;echo $total;)
    50005000

    real    0m0.141s
    user    0m0.125s
    sys     0m0.008s

    实现相同功能,可以看到awk实现的性能是shell的50倍!

    3.Linux awk shell 获得外部变量(变量传值)简介

    这里主要说下,怎么样把外部变量传入到awk执行语句中。

    3-1、基础:

    awk [ -F re] [parameter...] ['pattern {action}' ] [-f progfile][in_file...]

    awk一般语法如上面所说。

    如:

    [chengmo@localhost ~]$ echo 'awk code' | awk 'BEGIN{print "start ============="}{print $0}END{print "========= end"}'
    start
    =============
    awk code
    =========
    end

    在 awk中两个特别的表达式,BEGIN和END,这两者都可用于pattern中(参考前面的awk语法),提供BEGIN和END的作用是给程序赋予初始状态和在程序结束之后执行一些扫尾的工作。任何在BEGIN之后列出的操作(在{}内)将在awk开始扫描输入之前执行,而END之后列出的操作将在扫描完全部的输入之后执行。因此,通常使用BEGIN来显示变量和预置(初始化)变量,使用END来输出最终结果。

    3-2、获得外部变量方法

    1、获得普通外部变量

    [chengmo@localhost ~]$ test='awk code'                            
    [chengmo@localhost ~]$ echo | awk  '{print test}' test="$test"
    awk code
    [chengmo@localhost ~]$ echo | awk  test="$test" '{print test}' 
    awk: cmd. line:1: fatal: cannot open file `{print test}' for reading (No such file or directory)

    格式如:awk ‘{action}’  变量名=变量值   ,这样传入变量,可以在action中获得值。 注意:变量名与值放到’{action}’后面。

    [chengmo@localhost ~]$ echo | awk  'BEGIN{print test}' test="$test"         

    这种变量在:BEGIN的action不能获得。

    2.BEGIN程序块中变量

    [chengmo@localhost ~]$ test='awk code'                                 
    [chengmo@localhost ~]$ echo | awk -v test="$test" 'BEGIN{print test}'
    awk code
    [chengmo@localhost ~]$ echo | awk -v test="$test" '{print test}'     
    awk code

    格式如:awk –v 变量名=变量值 [–v 变量2=值2 …] 'BEGIN{action}’  注意:用-v 传入变量可以在3中类型的action 中都可以获得到,但顺序在  action前面。

      

    3.获得环境变量

    [chengmo@localhost ~]$ awk  'BEGIN{for (i in ENVIRON) {print i"="ENVIRON[i];}}'
    AWKPATH=.:/usr/share/awk
    SSH_ASKPASS=/usr/libexec/openssh/gnome-ssh-askpass
    SELINUX_LEVEL_REQUESTED=
    SELINUX_ROLE_REQUESTED=
    LANG=en_US.UTF-8
    .......

    只需要调用:awk内置变量 ENVIRON,就可以直接获得环境变量。它是一个字典数组。环境变量名 就是它的键值。

    4.linux awk 数组操作详细介绍

    5.Linux awk 字符串连接操作(字符串转数字,数字转字符串)

    6.Linux awk 数组排序多种实现方法

    7.linux awk 查看ip连接数(常见应用一)

    8.Linux awk shell 实现实时监控网卡流量脚本(常见应用二)

    9.Linux awk 分析web日志(页面执行时间)(常见用用三)

    10.Linux 正则表达式(shell  awk grep sed)

     

  • 相关阅读:
    拯救祭天的程序员——事件溯源模式
    啥?SynchronousQueue和钟点房一个道理
    程序员应该掌握的一些 Linux 命令
    Linux 环境下使用 sqlplus 访问远程 Oracle 数据库
    我对鸿蒙OS的一些看法
    我对技术潮流的一些看法
    git merge --ff/--no-ff/--ff-only 三种选项参数的区别
    go语言的初体验
    完全使用 VSCode 开发的心得和体会
    重复代码的克星,高效工具 VSCode snippets 的使用指南
  • 原文地址:https://www.cnblogs.com/Formulate0303/p/8662530.html
Copyright © 2011-2022 走看看