zoukankan      html  css  js  c++  java
  • awk的简单用法2

    awk内置变量
    a w k
    有许多内置变量用来设置环境信息。这些变量可以被改变。表9 - 3显示了最常使用的一些变量,并给出 其基本含义。

    QUOTE:

    awk内置变量
    A R G C
    命令行参数个数
    A R G V
    命令行参数排列
    E N V I R O N
    支持队列中系统环境变量的使用
    FILENAME a w k
    浏览的文件名
    F N R
    浏览文件的记录数
    F S
    设 置输入域分隔符,等价于命令行- F选项
    N F
    浏 览记录的域个数
    N R
    已 读的记录数
    O F S
    输出域分隔符
    O R S
    输出记录分隔符
    R S
    控 制记录分隔符



    QUOTE:

    A R G C支持命令行中传入a w k脚本的参数个数。A R G VA R G C的参数排列数组,其中每一元素表示为A R G V [ n ]n为期望访问的命令行参数。

    E N V I R O N
    支持系统设置的环境变量,要访问单独变量,使用实际变量名,例如E N V I R O N [“E D I TO R”] =“Vi”

    F I L E N A M E
    支持a w k脚 本实际操作的输入文件。因为a w k可以同时处理许多文件,因此如果访问了这个变量,将告之系统目前正在浏览的实际文件。

    F N R
    支持a w k目 前操作的记录数。其变量值小于等于N R。如果脚本正在访问许多文件,每一新输入文件都将重新设置此变量。

    F S
    用 来在a w k中 设置域分隔符,与命令行中- F选项功能相同。缺省情况下为空格。如果用逗号来作域分隔符,设置F S = ""

    N F
    支 持记录域个数,在记录被读之后再设置。

    O F S
    允许指定输出域分隔符,缺省为空格。如果想设置为#,写入O F S = " # "

    O R S
    为输出记录分隔符,缺省为新行( \ n)。

    R S
    是 记录分隔符,缺省为新行( \ n )


    NF
    NRFILENAME

    要快速 查看记录个数,应使用N R。比如说导出一个数据库文件后,如果想快速浏览记录个数,以便对比于其初始状态,查出 导出过程中出现的错误。使用N R将打印输入文件的记录个数。print NR放在E N D语法中。

    [Copy to clipboard] [ - ]

    CODE:

    [root@chenwy sam]# awk 'END{print NR}' grade.txt
    5


    如:所 有学生记录被打印,并带有其记录号。使用N F变量 显示每一条读记录中有多少个域,并在E N D部分打印输入文件名。
    [root@chenwy sam]# awk '{print NF,NR,$0} END{print FILENAME}' grade.txt

    [Copy to clipboard] [ - ]

    CODE:

    7 1 M.Tans 5/99 48311 Green 8 40 44
    7 2 J.Lulu 06/99 48317 green 9 24 26
    7 3 P.Bunny 02/99 48 Yellow 12 35 28
    7 4 J.Troll 07/99 4842 Brown-3 12 26 26
    7 5 L.Tansl 05/99       4712 Brown-2 12 30 28
    grade.txt


    在从文 件中抽取信息时,最好首先检查文件中是否有记录。下面的例子只有在文件中至少有一个记录时才查询B r o w n级别记录。使用A N D复合语句实现这一功能。意即至少存 在一个记录后,查询字符串B r o w n,最后打印结果。

    [Copy to clipboard] [ - ]

    CODE:

    [root@chenwy sam]# awk '{if (NR>0 && $4~/Brown/)print $0}' grade.txt
    J.Troll 07/99 4842 Brown-3 12 26 26
    L.Tansl 05/99   4712 Brown-2 12 30 28


    N F
    的 一个强大功能是将变量$ P W D的返回值传入a w k并 显示其目录。这里需要指定域分隔符/

    [Copy to clipboard] [ - ]

    CODE:

    [root@chenwy sam]# echo $PWD | awk -F/ ' {print $NF}'
    sam


    另一个 例子是显示文件名。

    [Copy to clipboard] [ - ]

    CODE:

    [root@chenwy sam]# echo "/usr/local/etc/rc.sybase" | awk -F/ '{print $NF}'
    rc.sybase


    如果不 指定域分割符,返回的如下:

    [Copy to clipboard] [ - ]

    CODE:

    [root@chenwy sam]# echo $PWD | awk  '{print $NF}'
    /usr/sam
    [root@chenwy sam]# echo "/usr/local/etc/rc.sybase" | awk '{print $NF}'
    /usr/local/etc/rc.sybase

     

    awk操作符
    a w k中使用操作符,基本表达式可以划分为数字型、字符串型、变量型、域及数组元素,前面已经讲过一些。下面列出其完整列表。

    在表达 式中可以使用下述任何一种操作符。

    QUOTE:

    = += *= / = %= ^ = 赋 值操作符
    条件表达操作符
    || && !
    并、与、非(上一节已讲到)
    ~!~
    匹 配操作符,包括匹配和不匹配
    < <= == != >>
    关系操作符
    + - * / % ^
    算术操作符
    + + --
    前缀和后缀


    前面已 经讲到了其中几种操作,下面继续讲述未涉及的部分。

    1.
    设置输入域到域变量名
    a w k中,设置有意义的域名是一种好习惯,在进行模式匹配或关系操作时更容易理解。
    一般的 变量名设置方式为n a m e = $ n,这里n a m e为调用的域变量名, n为实际域号。例如设置学生域名为n a m e,级别域名为b e l t,操作为n a m e = $ 1 ; b e l t s = $ 4。注意分号的使用,它分隔a w k命令。下面例子中,重新赋值学生名域为n a m e,级别域为b e l t s。查询级别为Ye l l o w的记录,并最终打印名称和级别。

    [Copy to clipboard] [ - ]

    CODE:

    [sam@chenwy sam]$ awk '{name=$1;belts=$4;if(belts ~/Yellow/) print name" is belt "belts}' grade.txt
    P.Bunny is belt Yellow


    2.
    域值比较操作
    有两种 方式测试一数值域是否小于另一数值域。
    1)
    B E G I N中给变量名赋值。
    2)
    在 关系操作中使用实际数值。
    通常在B E G I N部分赋值是很有益的,可以在a w k表达式进行改动时减少很多麻烦。
    使用关 系操作必须用圆括号括起来。
    下面的 例子查询所有比赛中得分在2 7点以下的学生。
    用引号 将数字引用起来是可选的,“2 7”2 7产生同样的结果。

    [Copy to clipboard] [ - ]

    CODE:

    [sam@chenwy sam]$ awk '{if ($6<$7) print $0}' grade.txt
    M.Tans 5/99 48311 Green 8 40 44
    J.Lulu 06/99 48317 green 9 24 26


    第二个 例子中给数字赋以变量名B A S E L I N E和在B E G I N部分给变量赋值,两者意义相同。

    [Copy to clipboard] [ - ]

    CODE:

    [sam@chenwy sam]$ awk 'BEGIN{BASELINE="27"} {if ($6<BASELINE) print $0}' grade.txt
    J.Lulu 06/99 48317 green 9 24 26
    J.Troll 07/99 4842 Brown-3 12 26 26


    3.
    修改数值域取值
    当在a w k中修改任何域时,重要的一点是要记住实际输入文件是不可修改的,修改的只是保存在缓存里的a w k复本。a w k会在变量N RN F变量中反映出修改痕迹。
    为修改 数值域,简单的给域标识重赋新值,如: $ 1 = $ 1 + 5,会将域1数值加5,但要确保赋值域其子集为数值型。
    修改M . Ta n s l e y的目前级别分域,使其数值从4 0减为3 9,使用赋值语句$ 6 = $ 6 - 1,当然在实施修改前首先要匹配域名。

    [Copy to clipboard] [ - ]

    CODE:

    [sam@chenwy sam]$ awk '{if($1=="M.Tans") {$6=$6-1};print $1,$6,$7}' grade.txt
    M.Tans 39 44
    J.Lulu 24 26
    P.Bunny 35 28
    J.Troll 26 26
    L.Tansl 30 28



    [Copy to clipboard] [ - ]

    CODE:

    [sam@chenwy sam]$ awk '{if($1=="M.Tans") {$6=$6-1;print $1,$6,$7}}' grade.txt
    M.Tans 39 44


    4.
    修改文本域
    修改文 本域即对其重新赋值。需要做的就是赋给一个新的字符串。在J . Tr o l l中加入字母,使其成为J . L . Tr o l l,表达式为$ 1 = " J . L . Tr o l l ",记住字符串要使用双秒号( " "), 并用圆括号括起整个语法。

    [Copy to clipboard] [ - ]

    CODE:

    [sam@chenwy sam]$ awk '{if($1=="J.Troll") $1="J.L.Troll"; print $1}' grade.txt
    M.Tans
    J.Lulu
    P.Bunny
    J.L.Troll
    L.Tansl


    5.
    只显示修改记录
    上述例 子均是对一个小文件的域进行修改,因此打印出所有记录查看修改部分不成问题,但如果文件很大,记录甚至超过1 0 0,打印所有记录只为查看修改部分显然不合情理。在模式后面使用花括号将只打印修改部分。取得模式,再根据模式结果实施操 作,可能有些抽象,现举一例,只打印修改部分。注意花括号的位置。

    [Copy to clipboard] [ - ]

    CODE:

    [sam@chenwy sam]$ awk '{if($1=="J.Troll") {$1="J.L.Troll"; print $1}}' grade.txt  
    J.L.Troll


    不 知道为什么,我这里多了一个空行?

    6.
    创建新的输出域
    a w k中处理数据时,基于各域进行计算时创建新域是一种好习惯。创建新域要通过其他域赋予新域标识符。如创建一个基于其他域的加 法新域{ $ 4 = $ 2 + $ 3 },这里假定记录包含3个域,则域4为新建域,保存域2和域3相加结果。
    在文件g r a d e . t x t中创建新域8保存域目前级别分与域最高级别分的 减法值。表达式为‘{ $ 8 = $ 7 - $ 6 }’,语法首先测试域目前级别分小于域最高级别分。新域因此只打印其值大于零的学生名称及其新域值。在B E G I N部分加入t a b键以对齐报告头。

    [Copy to clipboard] [ - ]

    CODE:

    [sam@chenwy sam]$ awk 'BEGIN{print "Name\tDifference"}{if($6<$7) {$8=$7-$6;print $1,$8}}' grade.txt
    Name    Difference
    M.Tans 4
    J.Lulu 2


    当然可 以创建新域,并赋给其更有意义的变量名。例如:

    [Copy to clipboard] [ - ]

    CODE:

    [sam@chenwy sam]$ awk 'BEGIN{print "Name\tDifference"}{if($6<$7) {diff=$7-$6;print $1,diff}}' grade.txt
    Name    Difference
    M.Tans 4
    J.Lulu 2


    7.
    增加列值
    为增加 列数或进行运行结果统计,使用符号+ =。增 加的结果赋给符号左边变量值,增加到变量的域在符号右边。例如将$ 1加入变量t o t a l,表达式为t o t a l + = $ 1。列值增加很有用。许多文件都要 求统计总数,但输出其统计结果十分繁琐。在a w k中这很简单,请看下面的例子。
    将所有 学生的目前级别分加在一起,方法是t o t + = $ 6t o t即为a w k浏览的整个文件的域6结果总和。所有记录读完后,在E N D部分加入一些提示信息及域6总和。不必在a w k中显示说明打印所有记录,每一个操作匹配时,这是缺省动作。

    [Copy to clipboard] [ - ]

    CODE:

    [sam@chenwy sam]$ awk '(tot+=$6); END{print "Club student total points :" tot}'
    grade.txt
    M.Tans 5/99 48311 Green 8 40 44
    J.Lulu 06/99 48317 green 9 24 26
    P.Bunny 02/99 48 Yellow 12 35 28
    J.Troll 07/99 4842 Brown-3 12 26 26
    L.Tansl 05/99 4712 Brown-2 12 30 28
    Club student total points :155


    如果文 件很大,你只想打印结果部分而不是所有记录,在语句的外面加上圆括号()即可。

    [Copy to clipboard] [ - ]

    CODE:

    [sam@chenwy sam]$ awk '{(tot+=$6)}; END{print "Club student total points :" tot}' grade.txt
    Club student total points :155


    8.
    文件长度相加
    在目录 中查看文件时,如果想快速查看所有文件的长度及其总和,但要排除子目录,使用ls -l命令,然后管道输出到a w ka w k首先剔除首字符为d(使用正则表达式)的记录,然后将文件长度列相加,并输出每一文件长度及在E N D部分输出所有文件的长度。
    本例 中,首先用ls -l命令查看一下文件属性。注意第二个文件属性首字符为d,说明它是一个目录,文件长度是第5列,文件名是第9列。如果系统不是这样排列文件名及其长度,应适时加以改变。
    下面的 正则表达式表明必须匹配行首,并排除字符d,表达式为^ [ ^ d ]
    使用此 模式打印文件名及其长度,然后将各长度相加放入变量t o t中。

    [Copy to clipboard] [ - ]

    CODE:

    [sam@chenwy sam]$ ls -l | awk '/^[^d]/ {print $9"\t"$5} {tot+=$5} END {print "total KB:" tot}'
    ...................
    total KB:174144

     

    内置的字符串函数

    [Copy to clipboard] [ - ]

    CODE:

    awk内置字符串函数
    g s u b ( r, s )
    在整个$ 0中用s替代r
    g s u b ( r, s , t )
    在整个t中用s替代r
    i n d e x ( s , t )
    返回s中字符串t的第一位置
    l e n g t h ( s )
    返回s长度
    m a t c h ( s , r )
    测试s是否包含匹配r的字符串
    s p l i t ( s , a , f s )
    f s上将s分成序列a
    s p r i n t ( f m t , e x p )
    返回经f m t格式化后的e x p
    s u b ( r, s )
    $ 0中最 左边最长的子串代替s
    s u b s t r ( s , p )
    返回字符串s中从p开始的后缀部分
    s u b s t r ( s , p , n )
    返回字符串s中从p开始长度为n的后缀部分


    g s u b
    函数有点类似于s e d查找和替换。它允许替换一个字符串 或字符为另一个字符串或字符,并以正则表达式的形式执行。第一个函数作用于记录$ 0,第二个g s u b函数允许指定目标,然而,如果未指定目标,缺省为$ 0
    i n d e x
    st)函数返回目标字符串s中查询字符串t的首位置。l e n g t h函数返回字符串s字符长度。
    m a t c h
    函数测试字符串s是否包含一个正则表达式r定义的匹配。s p l i t使用域分隔符f s将字符串s划分为指定序列a
    s p r i n t
    函数类似于p r i n t f函数(以后涉及),返回基本输出 格式f m t的结果字符串e x p
    s u b
    rs)函数将用s替代$ 0中最左边最长的子串,该子串被( r)匹配。
    s u b
    sp返回字符串s在位置p后的后缀。s u b s t rspn)同上,并指定子串长度为n
    现在看 一看a w k中这些字符串函数的功能。

    1. gsub
    要在整 个记录中替换一个字符串为另一个,使用正则表达式格式, /目标模式/,替换模式/。例如改变学生序号4 8 4 24 8 9 9

    [Copy to clipboard] [ - ]

    CODE:

    [root@Linux_chenwy root]# cd /usr/sam
    [root@Linux_chenwy sam]# awk 'gsub(/4842/,4899){print $0}' grade.txt
    J.Troll 07/99 4899 Brown-3 12 26 26



    [Copy to clipboard] [ - ]

    CODE:

    [root@Linux_chenwy sam]# awk 'gsub(/4842/,4899)' grade.txt
    J.Troll 07/99 4899 Brown-3 12 26 26


    2. index
    查询字 符串st出现的第一位置。必须用双引号将字符串括起来。例如返回目标字符串B u n n yn y出现 的第一位置,即字符个数。

    [Copy to clipboard] [ - ]

    CODE:

    [root@Linux_chenwy sam]# awk 'BEGIN {print index("Bunny","ny")}' grade.txt
    4


    3. length
    返回所 需字符串长度,例如检验字符串J . Tr o l l返回名字及其长度,即人名构成的字符个数

    [Copy to clipboard] [ - ]

    CODE:

    [root@Linux_chenwy sam]# awk '$1=="J.Troll" {print length($1)" "$1}' grade.txt
    7 J.Troll


    还有一 种方法,这里字符串加双引号。

    [Copy to clipboard] [ - ]

    CODE:

    [root@Linux_chenwy sam]# awk 'BEGIN{print length("A FEW GOOD MEN")}'
    14


     

    4. match
    m a t c h
    测试目标字符串是否包含查找字符的一部分。可以对查找部分使用正则表达式,返回值为成功出现的字符排列数。如果未找到,返回0,第一个例子在A N C D中查找d。因其不存在,所以返回0。第二个例子在A N C D中查找D。因其存在,所以返回A N C DD出现的首位置字符数。第三个例子在学生J . L u l u中查找u

    [Copy to clipboard] [ - ]

    CODE:

    [root@Linux_chenwy sam]# awk 'BEGIN{print match("ANCD",/d/)}'
    0
    [root@Linux_chenwy sam]# awk 'BEGIN{print match("ANCD",/D/)}'
    4
    [root@Linux_chenwy sam]# awk '$1=="J.Lulu" {print match($1,"u")}' grade.txt
    4


    5. split
    使用s p l i t返回字符串数组元素个数。工作方式如下:如果有一字符串,包含一指定分隔符- ,例如A D2 - K P 9 - J U 2 - L P - 1,将之划分成一个数组。使用s p l i t,指定分隔符及数组名。此例中,命令格式为( " A D 2 - K P 9 - J U 2 - L P - 1 "p a r t s _ a r r a y" - "),s p l i t然后返回数组下标数,这里结果为4

    [Copy to clipboard] [ - ]

    CODE:

    [root@Linux_chenwy sam]# awk 'BEGIN {print split("123-456-789",pats_array,"-")}'3


    还有一 个例子使用不同的分隔符。

    [Copy to clipboard] [ - ]

    CODE:

    [root@Linux_chenwy sam]# awk 'BEGIN {print split("123#456#789",myarray,"#")}'                                                        3


    这个例 子中,s p l i t返回数组m y a r r a y的下标数。数组m y a r r a y取值如下:

    [Copy to clipboard] [ - ]

    CODE:

    myarray[1]=123
    myarray[2]=456
    myarray[3]=789


    结尾部 分讲述数组概念。

    6. sub
    使用s u b发现并替换模式的第一次出现位置。字符串S T R包 含‘poped popo pill’,执行下列s u b命 令s u b/ o p /" o p "S T R)。 模式o p第一 次出现时,进行替换操作,返回结果如下:‘pO Ped pope pill’

    如:学 生J . Tr o l l的记录有两个值一样,目前级别分最高级别分。只改变第一个为2 9,第二个仍为2 4不动,操作命令为s u b/ 2 6 /" 2 9 "$ 0),只替换第一个出现2 4的位置。注意J . Tr o l l记录需存在。

    [Copy to clipboard] [ - ]

    CODE:

    [root@Linux_chenwy sam]# awk '$1=="J.Troll" sub(/26/,"29",$0)' grade.txt
    M.Tans 5/99 48311 Green 8 40 44
    J.Lulu 06/99 48317 green 9 24 29
    P.Bunny 02/99 48 Yellow 12 35 28
    J.Troll 07/99 4842 Brown-3 12 29 26
    L.Tansl 05/99 4712 Brown-2 12 30 28


    7. substr
    s u b s t r
    是一个很有用的函数。它按照起始位置及长度返回字符串的一部分。例子如下:

    [Copy to clipboard] [ - ]

    CODE:

    [root@Linux_chenwy sam]# awk '$1=="L.Tansl" {print substr($1,1,3)}' grade.txt
    L.T


    上面例 子中,指定在域1的第一个字符开始,返回其前面5个字符。

    如果给 定长度值远大于字符串长度, a w k将从起始位置返回所有字符,要抽取L Ta n s l - e y的姓,只需从第3个字符开始返回长度为7。可以输入长度9 9a w k返回结果相同。

    [Copy to clipboard] [ - ]

    CODE:

    [root@Linux_chenwy sam]# awk '$1=="L.Tansl" {print substr($1,1,99)}' grade.txt
    L.Tansl


    s u b s t r
    的另一种形式是返回字符串后缀或指定位置后面字符。这里需要给出指定字符串及其返回字串的起始位置。例如,从文本文件中抽取姓氏,需操作 域1,并从第三个字符开始:

    [Copy to clipboard] [ - ]

    CODE:

    [root@Linux_chenwy sam]# awk '{print substr($1,3)}' grade.txt
    Tans
    Lulu
    Bunny
    Troll
    Tansl


    还有一 个例子,在B E G I N部分定义字符串,在E N D部分返回从第t个字符开始抽取的子串。

    [Copy to clipboard] [ - ]

    CODE:

    [root@Linux_chenwy sam]# awk 'BEGIN{STR="A FEW GOOD MEN"}END{print substr(STR,7)}' grade.txt
    GOOD MEN


    8.
    s h e l l中向a w k传入字符串
    a w k
    脚本大多只有一行,其中很少是字符串表示的。大多要求在一行内完成a w k脚本,这一点通过将变量传入a w k命令行会变得很容易。现就其基本原理讲
    述一些 例子。
    使用管 道将字符串s t a n d - b y传入a w k,返回其长度。

    [Copy to clipboard] [ - ]

    CODE:

    [root@Linux_chenwy sam]# echo "Stand-by" | awk '{print length($0)}'
    8


    设置文 件名为一变量,管道输出到a w k,返回不带扩展名的文件名。

    [Copy to clipboard] [ - ]

    CODE:

    [root@Linux_chenwy sam]# STR="mydoc.txt"
    [root@Linux_chenwy sam]# echo $STR|awk '{print substr($STR,1,5)}'
    mydoc


    设置文 件名为一变量,管道输出到a w k,只返回其扩展名。

    [Copy to clipboard] [ - ]

    CODE:

    [root@Linux_chenwy sam]# STR="mydoc.txt"
    [root@Linux_chenwy sam]# echo $STR|awk '{print substr($STR,7)}'
    txt

     


    字 符串屏蔽序列

    使用字 符串或正则表达式时,有时需要在输出中加入一新行或查询一元字符。
    打印一 新行时,(新行为字符\ n),给出其屏蔽序列,以不失其特殊含义,用法为在字符串前加入反斜线。例如使用\ n强迫打印一新行。
    如果使 用正则表达式,查询花括号( { }), 在字符前加反斜线,如/ \ { /,将在a w k中 失掉其特殊含义。

    [Copy to clipboard] [ - ]

    CODE:

    awk中使用的屏蔽序列
    \ b
    退 格键
    \ t t a b

    \ f
    走 纸换页
    \ d d d
    八进制值
    \ n
    新 行
    \ c
    任 意其他特殊字符,例如\ \为反 斜线符号
    \ r
    回 车键


    使用上 述符号,打印May Day,中间夹t a b键,后跟两个新行,再打印May Day,但这次使用八进制数1 0 41 4 11 7 1、分别代表Day

    [Copy to clipboard] [ - ]

    CODE:

    [root@chenwy sam]# awk 'BEGIN {print"\n\May\tDay\n\nMay\t\104\141\171"}'

    May     Day

    May     Day


    注意,\ 1 0 4D的八进制A S C I I码,\ 1 4 1a的八进制A S C I I码,等等。

  • 相关阅读:
    .net core上传
    C#/.NET整数的三种强制类型转换(int)、Convert.ToInt32()、int.Parse()的区别
    14、Silverlight 滤镜到 UWP 滤镜的移植(二)
    13、在 uwp应用中,给图片添加高斯模糊滤镜效果(一)
    1、揭秘通用平台的 HttpClient (译)
    12、uwp 开发的零碎总结
    11、使用 WinAppDeployCmd 部署appx 包到 Windows10 Mobile上(更新)
    10、Windows10 上,在窗口左侧向右滑动打开 SplitView 的 Pane面板
    09、win32 转换为 store app
    08、通过自定义依赖属性,用 StateTrigger 修改全局主题样式
  • 原文地址:https://www.cnblogs.com/feihongwuhen/p/7170970.html
Copyright © 2011-2022 走看看