zoukankan      html  css  js  c++  java
  • awk命令--update20150120

    简介

    awk是一个强大的文本分析工具,把文件逐行读入,以空格为默认分隔符分割成field,切开的部分再进行各种分析处理。

    模式和动作:

    任何awk语句都是由模式和动作组成,模式部分决定动作语句何时触发及触发事件。动作即对数据进行的操作,如果省去模式部分,动作将时刻保持执行状态。

    模式包含两个特殊字段BEGIN和END,使用BEGIN语句设置计数和打印头,BEGIN语句使用在任何文本浏览动作之前,之后文本浏览动作依据输入文件开始执行;END语句用来在awk完成文本浏览动作后打印输出文本总数和结尾状态标志,有动作必须使用{}括起来。

    条件操作符  :   <、<=、==、!=、>=、~匹配正则表达式、!~不匹配正则表达式

        匹配:          awk 'BEGIN{ FS=":" } {if ($4~/ASIMA/) print $0}' temp 表示如果第四个域包含ASIMA,就打印整条
    
                       等价于awk 'BEGIN{ FS=":" } $4 ~ "ASIMA"{ print $0}' temp
    
        精确匹配:       awk 'BEGIN{ FS=":";} $1=="root"{print $0}' /etc/passwd
    
        不匹配:         awk '$0 !~ /ASIMA/' temp      打印整条不包含ASIMA的记录
    
        小于:           awk '{if ($1<$2) print $1 "is smaller"}' temp
    
        [] :           awk '/[Gg]reen/' temp      打印整条包含Green,或者green的记录
    
        | :            awk '$0~/(abc)|(efg)/' temp   使用|时,语句需要括起来
    
        AND :          awk '{if ( $1=="a" && $2=="b" ) print $0}' temp
    
        OR  :          awk '{if ($1=="a" || $1=="b") print $0}' temp

     awk内置字符串函数:

    gsub(r,s)          在整个$0中用s替代r   :     awk'gsub(/name/,"xingming") {print $0}' temp
    gsub(r,s,t)        在整个t中用s替代r
    index(s,t)         返回s中字符串t的第一位置    :    awk 'BEGIN{print index("Sunny","ny")}'temp    返回4
    length(s)          返回s的长度
    match(s,r)         测试s是否包含匹配r的字符串     :     awk'$1=="J.Lulu" {print match($1,"u")}'temp   返回4
    split(s,a,fs)      在fs上将s分成序列a    :    awk 'BEGIN{print split("12#345#6789",myarray,"#")"'
                                                                 返回3,同时myarray[1]="12", myarray[2]="345",myarray[3]="6789"
    sprint(fmt,exp)    返回经fmt格式化后的exp
    sub(r,s)            从$0中最左边最长的子串中用s代替r(只更换第一遇到的匹配字符串)
    substr(s,p)        返回字符串s中从p开始的后缀部分
    substr(s,p,n)      返回字符串s中从p开始长度为n的后缀部分

    awk调用外部变量:

    #1.使用 ' 分隔
    str=aa  
    echo | awk '{print "this is '$str'"}'  
    this is aa  
    
    #2.当变量中含有空格是用 ' 分隔会出错,和awk默认输出分隔符有关
    str="aa bb"  
    echo | awk '{print "this is '$str'"}'  
    awk: cmd. line:1: {print "this is aa  
    awk: cmd. line:1:        ^ unterminated string  
    
    #解决2
    awk -v str="aa bb" 'BEGIN{print str}'  
    或者
    str="aa bb"
    awk -v s="$str" 'BEGIN{print s}

    调用awk

    1.命令行方式
    awk [-F  field-separator]  'commands'  input-file(s)
    其中,commands 是真正awk命令,[-F域分隔符]是可选的。 input-file(s) 是待处理的文件。
    在awk中,文件的每一行中,由域分隔符分开的每一项称为一个域。通常,在不指名-F域分隔符的情况下,默认的域分隔符是空格。
    
    2.shell脚本方式
    将所有的awk命令插入一个文件,并使awk程序可执行,然后awk命令解释器作为脚本的首行,一遍通过键入脚本名称来调用。
    相当于shell脚本首行的:#!/bin/sh
    可以换成:#!/bin/awk
    
    3.将所有的awk命令插入一个单独文件,然后调用:
    awk -f awk-script-file input-file(s)
    其中,-f选项加载awk-script-file中的awk脚本,input-file(s)跟上面的是一样的。
    例子:
    awk -f test.awk myfile.in
    test.awk内容如下:
    BEGIN { FS=":" } { print $1 }

    入门实例

    假设last -n 5的输出如下

    [root@www ~]# last -n 5 <==仅取出前五行
    root     pts/1   192.168.1.100  Tue Feb 10 11:21   still logged in
    root     pts/1   192.168.1.100  Tue Feb 10 00:46 - 02:28  (01:41)
    root     pts/1   192.168.1.100  Mon Feb  9 11:41 - 18:30  (06:48)
    dmtsai   pts/1   192.168.1.100  Mon Feb  9 11:41 - 11:41  (00:00)
    root     tty1                   Fri Sep  5 14:09 - 14:10  (00:01)

    如果只是显示最近登录的5个帐号

    #last -n 5 | awk  '{print $1}'
    root
    root
    root
    dmtsai
    root

    awk工作流程是这样的:读入有' '换行符分割的一条记录,然后将记录按指定的域分隔符划分域,填充域,$0则表示所有域,$1表示第一个域,$n表示第n个域。默认域分隔符是"空白键" 或 "[tab]键",所以$1表示登录用户,$3表示登录用户ip,以此类推。

    如果只是显示/etc/passwd的账户和账户对应的shell,而账户与shell之间以tab键分割

    #cat /etc/passwd |awk  -F ':'  '{print $1"	"$7}'
    root    /bin/bash
    daemon  /bin/sh
    bin     /bin/sh
    sys     /bin/sh

    如果只是显示/etc/passwd的账户和账户对应的shell,而账户与shell之间以逗号分割,而且在所有行添加列名name,shell,在最后一行添加"blue,/bin/nosh"。

    cat /etc/passwd |awk  -F ':'  'BEGIN {print "name,shell"}  {print $1","$7} END {print "blue,/bin/nosh"}'
    name,shell
    root,/bin/bash
    daemon,/bin/sh
    bin,/bin/sh
    sys,/bin/sh
    ....
    blue,/bin/nosh

    awk工作流程是这样的:先执行BEGING,然后读取文件,读入有/n换行符分割的一条记录,然后将记录按指定的域分隔符划分域,填充域,$0则表示所有域,$1表示第一个域,$n表示第n个域,随后开始执行模式所对应的动作action。接着开始读入第二条记录······直到所有的记录都读完,最后执行END操作。

    搜索/etc/passwd有root关键字的所有行

    #awk -F: '/root/' /etc/passwd
    root:x:0:0:root:/root:/bin/bash

    这种是pattern的使用示例,匹配了pattern(这里是root)的行才会执行action(没有指定action,默认输出每行的内容)。

    搜索支持正则,例如找root开头的: awk -F: '/^root/' /etc/passwd

    搜索/etc/passwd有root关键字的所有行,并显示对应的shell

    # awk -F: '/root/{print $7}' /etc/passwd             
    /bin/bash

     这里指定了action{print $7}

     

    awk内置变量

    FS                     Field Separater,设置输入域分隔符,等价于命令行 -F选项
                             FS="	+" 一个或多个TAB分隔
                  FS="[[:space:]+]" #一个或多个空白分隔,默认的
                FS="(foo|:)" #以 foo或:分隔
    
    RS                     Record Separater , 控制记录分隔符
    
    NF                     Number of Fields,浏览记录的域的个数,通常只读

    $NF 最后一个域的值             NR Number of Records,已读的记录数,当前AWK遍历过的行数,动态变化 (NR
    <= 10 ) || (NR >= 100) { print "我们在前10行或第100行之后" } OFS 输出域分隔符,默认为” ” ORS 输出记录分隔符,记录输出分隔符,默认为” ” ARGC 命令行参数个数 ARGV 命令行参数排列 ENVIRON 支持队列中系统环境变量的使用 FILENAME awk浏览的文件名 FNR 浏览文件的记录数

     统计/etc/passwd:文件名,每行的行号,每行的列数,对应的完整行内容

     awk  -F ':'  '{printf("filename:%10s,linenumber:%s,columns:%s,linecontent:%s
    ",FILENAME,NR,NF,$0)}' /etc/passwd

    print和printf

    awk中同时提供了print和printf两种打印输出的函数。

    其中print函数的参数可以是变量、数值或者字符串。字符串必须用双引号引用,参数用逗号分隔。如果没有逗号,参数就串联在一起而无法区分。这里,逗号的作用与输出文件的分隔符的作用是一样的,只是后者是空格而已。

    printf函数,其用法和c语言中printf基本相似,可以格式化字符串,输出复杂时,printf更加好用,代码更易懂。

     

     awk编程

     变量和赋值

    除了awk的内置变量,awk还可以自定义变量。

    下面统计/etc/passwd的账户人数

    awk '{count++;print $0;} END{print "user count is ", count}' /etc/passwd
    root:x:0:0:root:/root:/bin/bash
    ......
    user count is  40 

    count是自定义变量。之前的action{}里都是只有一个print,其实print只是一个语句,而action{}可以有多个语句,以;号隔开。

    这里没有初始化count,虽然默认是0,但是妥当的做法还是初始化为0:

    awk 'BEGIN {count=0;print "[start]user count is ", count} {count=count+1;print $0;} END{print "[end]user count is ", count}' /etc/passwd
    [start]user count is  0
    root:x:0:0:root:/root:/bin/bash
    ...
    [end]user count is  40

    统计某个文件夹下的文件占用的字节数

    ls -l |awk 'BEGIN {size=0;} {size=size+$5;} END{print "[end]size is ", size}'
    [end]size is  8657198

    如果以M为单位显示:

    ls -l |awk 'BEGIN {size=0;} {size=size+$5;} END{print "[end]size is ", size/1024/1024,"M"}' 
    [end]size is  8.25889 M

    注意,统计不包括文件夹的子目录。

     

    条件语句 

    统计某个文件夹下的文件占用的字节数,过滤4096大小的文件(一般都是文件夹):

    ls -l |awk 'BEGIN {size=0;print "[start]size is ", size} {if($5!=4096){size=size+$5;}} END{print "[end]size is ", size/1024/1024,"M"}' 
    [end]size is  8.22339 M

    循环语句

    awk中的循环语句同样借鉴于C语言,支持while、do/while、for、break、continue,这些关键字的语义和C语言中的语义完全相同。

    数组

      因为awk中数组的下标可以是数字和字母,数组的下标通常被称为关键字(key)。值和关键字都存储在内部的一张针对key/value应用hash的表格里。由于hash不是顺序存储,因此在显示数组内容时会发现,它们并不是按照你预料的顺序显示出来的。数组和变量一样,都是在使用时自动创建的,awk也同样会自动判断其存储的是数字还是字符串。一般而言,awk中的数组用来从记录中收集信息,可以用于计算总和、统计单词以及跟踪模板被匹配的次数等等。

    显示/etc/passwd的账户 

    awk -F ':' 'BEGIN {count=0;} {name[count] = $1;count++;}; END{for (i = 0; i < NR; i++) print i, name[i]}' /etc/passwd
    0 root
    1 daemon
    2 bin
    3 sys
    4 sync
    5 games
    ......

     循环数组

    awk 'BEGIN {record="123#456#789";split(record,myarray,"#")} END { for (i in myarray) {print myarray[i]} }'
  • 相关阅读:
    PAT 甲级 1115 Counting Nodes in a BST (30 分)
    PAT 甲级 1114 Family Property (25 分)
    PAT 甲级 1114 Family Property (25 分)
    Python Ethical Hacking
    Python Ethical Hacking
    Python Ethical Hacking
    Python Ethical Hacking
    Python Ethical Hacking
    Python Ethical Hacking
    Python Ethical Hacking
  • 原文地址:https://www.cnblogs.com/leezhxing/p/3914535.html
Copyright © 2011-2022 走看看