zoukankan      html  css  js  c++  java
  • 10 awk

    三剑客之sed命令

    一 awk简介

    ​ awk命名源自于它的三大作者名字的首字母,分别是Alfred Aho、Brian Kernighan、Peter Weinberger。(gawk是awk的GNU版本,它提供了Bell实验室和GNU的一些扩展)。

    ​ awk 是一种编程语言,用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个
    或多个文件,或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能,是linux/unix
    下的一个强大编程工具。它在命令行中使用,但更多是作为脚本来使用。
    ​ awk的处理文本和数据的方式是这样的,它逐行扫描文件,从第一行到最后一行,寻找匹配的特定
    模式的行,并在这些行上进行你想要的操作。如果没有指定处理动作,则把匹配的行显示到标准输出(
    屏幕),如果没有指定模式,则所有被操作所指定的行都被处理

    ​ awk的两种语法格式

    awk [options] 'commands' filename
    awk [options] -f awk-script-file filename
    

    ​ awk选项options

    -F		定义字段分隔符,默认的分隔符是空格或制表符(tab)
    

    ​ awk的命令commands总共由三部分组成

    BEGIN{}         		{}                 END{}
    读所有行之前做的事情       读一行处理一行 	   所有读完之后要做的事情
    

    ​ 可以省略BEGIN{} 和END{},只进行{}行处理,并且{}行处理前可以加匹配,匹配成功后再处理

    awk 'pattern' filename				示例:awk -F: '/root/' /etc/passwd		
    awk '{action}' filename				示例:awk -F: '{print $1}' /etc/passwd			
    awk 'pattern{action}' filename		示例:awk -F: '/root/{print $1,$3}' /etc/passwd		
    								示例:awk 'BEGIN{FS=":"} /root/{print $1,$3}' /etc/passwd
    其他命令 |awk 'pattern' 
    其他命令 |awk '{action}'			
    其他命令 |awk 'pattern{action}' 	
    
    # 匹配pattern可以是:/正则表达式/也可以是条件,如下
    示例:df -P |awk '$4 > 999999{print $0}'  # 也可以省略{print $0}
    
    模式pattern还可以是其他,详解第五章节
    

    二 awk工作原理

    awk -F: '{print $1,$3}' /etc/passwd
        
    (1)awk会接收一行作为输入,并将这一行赋给awk的内部变量$0,每一行也可称为一个记录,行的边界是以换行符作为结束
    
    (2)然后,刚刚读入的行被以:为分隔符分解成若干字段(或域),每个字段存储在已编号的变量中,编号从$1开始,最多达100个字段
    注意:如果未指定行分隔符,awk将使用内置变量FS的值作为默认的行分隔符,FS默认值为空格
    
    (3)使用print函数打印,如果$1$3之间没有逗号,它俩在输出时将贴在一起,应该在$1,$3之间加逗号,该逗号与awk的内置变量OFS保持一致,OFS默认为空格,于是以空格为分隔符输出$1和$3
    我们可以指定:awk -F: 'BEGIN{OFS="-"}{print $1,$3}' /etc/passwd
    
    (4)输出之后,将从文件中获取另一行,然后覆盖给$0,继续(2)的步骤将该行内容分隔成字段。。。继续(3)的步骤
    该过程一直持续到所有行处理完毕
    

    三 记录与字段相关内部变量

    $0:	保存当前行的内容				# awk -F: '{print $0}' /etc/passwd
    NR:	记录号,每处理完一条记录,NR值加1  # awk -F: '{print NR, $0}' /etc/passwd
    NF:	保存记录的字段数,$1,$2...$100	# awk -F: '{print $0,NF}' /etc/passwd
    FS:	输入字段分隔符,默认空格		# awk -F: '/alice/{print $1, $3}' /etc/passwd
    								# awk -F'[ :	]' '{print $1,$2,$3}' /etc/passwd	
    								# awk 'BEGIN{FS=":"} {print $1,$3}' /etc/passwd
    OFS:输出字段分隔符		# awk -F: '/root/{print $1,$2,$3,$4}' /etc/passwd
    					# awk -F: 'BEGIN{OFS="+++"} /^root/{print $1,$2,$3,$4}' /etc/passwd
        			   # awk  'BEGIN{OFS="-";FS=":"}/root/{print NR,$0,NF}' /etc/passwd
    

    四 格式化输出

    ================print函数===================
    [root@egon ~]# date | awk '{print "月:",$2,"
    年:",$1}'
    月: 09月 
    年: 2020年
    [root@egon ~]# 
    [root@egon ~]# awk -F: '{print "用户名:",$1,"用户id:",$3}' /etc/passwd
    
    ================printf函数===================
    [root@egon ~]# awk -F: '{printf "用户名:%s 用户id:%s
    ",$1,$3}' /etc/passwd
    [root@egon ~]# awk -F: '{printf "|%-15s| %-10s| %-15s|
    ", $1,$2,$3}' /etc/passwd
    
    %s 字符类型
    %d 数值类型
    占15格的字符串
    - 表示左对齐,默认是右对齐
    printf默认不会在行尾自动换行,加
    
    

    五 模式pattern与动作action

    awk 'pattern{action}' filename

    模式pattern可以是

    • 正则表达式

      # 匹配整行
      awk -F: '/egon/{print $1,$3}' /etc/passwd    
      awk '/^root/'  /etc/passwd
      
      # 匹配一行的某个字段
      # awk '$0 ~ /^root/'  /etc/passwd
      # awk '$1 ~ /^root/'  /etc/passwd
      # awk '$7 !~ /bash$/'  /etc/passwd
      
    • 比较表达式

      比较表达式指的是使用关系运算符来比较数字以及字符串,只有当条件为真,才执行指定的动作
      
      关系运算符
      运算符			  含义						示例
      <				小于						  x<y
      <=				小于或等于					x<=y
      ==				等于						  x==y
      !=				不等于					     x!=y
      >=				大于等于					x>=y
      >				大于						  x>y
      ~				正则表达式匹配				   x~/y/
      !~				正则表达式不匹配			  x!~/y/
      
      
      示例:
      # awk -F: '$3 == 0' /etc/passwd
      # awk -F: '$3 < 10' /etc/passwd
      # awk -F: '$7 == "/bin/bash"' /etc/passwd
      # awk -F: '$1 == "root" ' /etc/passwd
      
    • 条件表达式

      # awk -F: '{if($3>300) {print $0}}' /etc/passwd
      # awk -F: '{if($3>300) {print $3} else{print $1}}' /etc/passwd
      
      # awk -F: '{if($3>300) {max=$3;print max} else{max=$1;print max}}' /etc/passwd
      # awk -F: '{max=($3>300) ? $3 : $1; print max}' /etc/passwd
      
      # awk -F: '{if($3>$4) {max=$3;print max} else{max=$4; print max}}' /etc/passwd
      # awk -F: '{max=($3 > $4) ? $3: $4; print max}' /etc/passwd	
      相当于:
      if ($3 > $4)
      	max=$3
      else
      	max=$4
      
    • 算数运算

      + - * / %(模) ^(幂2^3)
      可以在模式中执行计算,awk都将按浮点数方式执行算术运算
      
      # awk -F: '$3 * 10 > 500' /etc/passwd
      
    • 逻辑运算和复合模式

      &&			逻辑与		a&&b
      ||			逻辑或		a||b
      !			逻辑非		!a
      
      示例:
      # awk '$2 > 5 && $2 <= 15' filename
      # awk '$3 == 100 || $4 > 50' filename
      # awk '!($2 < 100 && $3 < 20)' filename	
      
    • 范围模式

      # 正则
      awk '/root/,/egon/' filename
      
      说明:
      awk将显示从root首次出现的行到egon首次出现的行这个范围内的所有行,包括两个边界在内。如果没有找到egon,awk将继续打印各行直至文件末尾。
      
      如果打印完root到egon的内容之后,又出现了root, awk就又一次开始显示行,直至找到下一个egon或文件末尾。
      
      [root@aliyun ~]# cat a.txt
      1111root
      2222root22222
      egon123123123123
      4444
      5555
      6666
      root7777
      1asf
      asdfasdf
      egon
      7788
      [root@aliyun ~]# awk '/root/,/egon/{print NR,$0}' a.txt
      1 1111root
      2 2222root22222
      3 egon123123123123
      7 root7777
      8 1asf
      9 asdfasdf
      10 egon
      [root@aliyun ~]# 
      
      # 行号
      awk -F: 'NR>=1 && NR <=3{print $1}' test.txt 
      

    六 awk示例

    # awk '/west/' datafile
    # awk '/^north/' datafile
    # awk '/^(no|so)/' datafile
    # awk '{print $3,$2}' datafile
    # awk '{print $3 $2}' datafile
    # awk '{print $0}' datafile
    # awk '{print "Number of fields: "NF}' datafile
    # awk '/northeast/{print $3,$2}' datafile
    # awk '/E/' datafile
    # awk '/^[ns]/{print $1}' datafile
    # awk '$5 ~ /.[7-9]+/' datafile
    # awk '$2 !~ /E/{print $1,$2}' datafile
    # awk '$3 ~ /^Joel/{print $3 " is a nice guy."}' datafile
    # awk '$8 ~ /[0-9][0-9]$/{print $8}' datafile
    # awk '$4 ~ /Chin$/{print "The price is $" $8 "."}' datafile
    # awk '/Tj/{print $0}' datafile
    # awk '{print $1}' datafile2		
    # awk -F: '{print $1}' datafile2
    # awk '{print "Number of fields: "NF}' datafile2
    # awk -F: '{print "Number of fields: "NF}' datafile2
    # awk -F"[ :]" '{print $1,$2}' datafile2
       
    # awk '$7 == 5' datafile
    # awk '$2 == "CT" {print $1, $2}' datafile
    # awk '$7 != 5' datafile
    # awk '$7 < 5 {print $4, $7}' datafile
    # awk '$6 > .9 {print $1,$6}' datafile
    # awk '$8 <= 17 {print $8}' datafile
    # awk '$8 >= 17 {print $8}' datafile
    # awk '$8 > 10 && $8 < 17' datafile
    # awk '$2 == "NW" || $1 ~ /south/ {print $1, $2}' datafile
    # awk '!($8 == 13){print $8}' datafile
    # awk '/southem/{print $5 + 10}' datafile
    
    # awk '/southem/{print $8 + 10}' datafile
    # awk '/southem/{print $5 + 10.56}' datafile
    # awk '/southem/{print $8 - 10}' datafile
    # awk '/southem/{print $8 / 2 }' datafile
    # awk '/southem/{print $8 / 3 }' datafile
    # awk '/southem/{print $8 * 2 }' datafile
    # awk '/southem/{print $8 % 2 }' datafile
    
    # awk '$3 ~ /^Suan/ {print "Percentage: "$6 + .2   " Volume: " $8}' datafile
    # awk '/^western/,/^eastern/' datafile
    # awk '{print ($7 > 4 ? "high "$7 : "low "$7)}' datafile			//条件运算符
    # awk '$3 == "Chris" {$3 = "Christian"; print}' datafile			//赋值运算符
    # awk '/Derek/ {$8 += 12; print $8}' datafile		//$8 += 12等价于$8 = $8 + 12
    # awk '{$7 %= 3; print $7}' datafile				//$7 %= 3等价于$7 = $7 % 3 
    

    七 awk流程控制

    ==条件判断
    if语句:
    格式
    {if(表达式){语句;语句;...}}
    awk -F: '{if($3==0) print $1 " is administrator."}' /etc/passwd
    awk -F: '{if($3>0 && $3<500){count++; print $1}} END{print count}' /etc/passwd	//统计系统用户数
    
    if...else语句:
    格式
    {if(表达式){语句;语句;...}else{语句;语句;...}}
    awk -F: '{if($3==0){print $1} else {print $7}}' /etc/passwd
    awk -F: '{if($3>0) {count++} else{i++}' /etc/passwd
    awk -F: '{if($3>0){count++} else{i++}} END{print "管理员个数: "i "
    系统用户数: "count}' /etc/passwd
    
    if...else if...else语句:
    格式
    {if(表达式){语句;语句;...}else if(表达式){语句;语句;...}else if(表达式){语句;语句;...}else{语句;语句;...}}
    awk -F: '{if($3==0){i++} else if($3>499){k++} else{j++}} END{print i; print k; print j}' /etc/passwd
    awk -F: '{if($3==0){i++} else if($3>499){k++} else{j++}} END{print "管理员个数: "i; print "普通用个数: "k; print "系统用户: "j}' /etc/passwd 
    
    
    ==循环
    while:
    awk -F: '{i=1; while(i<=10) {print $0;  i++}}' /etc/passwd		//将每行打印10次
    
    for:
    awk -F: '{for(i=1;i<=10;i++) print $0}' /etc/passwd					//将每行打印10次
    
    
    ==数组(索引或key对应值)
    # awk -F: '{username[++i]=$1} END{print username[1]}' /etc/passwd
    root
    # awk -F: '{username[i++]=$1} END{print username[1]}' /etc/passwd 
    bin
    # awk -F: '{username[i++]=$1} END{print username[0]}' /etc/passwd 
    root
    
    # awk -F: '{username[x++]=$1} END{for(i=0;i<NR;i++) print i,username[i]}' /etc/passwd
    0 root
    1 bin
    2 daemon
    3 adm
    4 lp
    5 sync
    6 shutdown
    7 halt
    ...
    # awk -F: 'BEGIN{x=1} {user[x++]=$1} END{for(i=1;i<=NR;i++) {print i,user[i]} }' /etc/passwd
    # awk -F: 'BEGIN{j=1} {if($3<5){user[j++]=$1}}   END{for(i=1;i<j;i++) {print i,user[i]} }' /etc/passwd
    
    # awk -F: 'BEGIN{i=1} {username[i]=$1;i++}'
    
    # awk -F: 'BEGIN{i=1} $3<10{username[i]=$1;++i} END{for(j=1;j<i;j++){print j,username[j]}}' /etc/passwd
    1 root
    2 bin
    3 daemon
    4 adm
    5 lp
    6 sync
    7 shutdown
    8 halt
    9 mail
    10 admin
    
    ========================================================
    # awk -F: '{username[++x]=$1} END{for(i=1;i<=NR;i++) {print i,username[i]}}' passwd1 
    1 root
    2 bin
    3 daemon
    4 adm
    5 lp
    6 sync
    7 shutdown
    8 halt
    9 mail
    10 uucp
    
    # awk -F: '{username[++x]=$1} END{for(i in username) {print username[i]} }' passwd1 
    adm
    lp
    sync
    shutdown
    halt
    mail
    uucp
    root
    bin
    daemon
    
    》》》》》》》》》》》》key:value《《《《《《《《《《《《
    # awk -F: '{user_id[$1]=$3} END{for(i in user_id) {print i,user_id[i]}}' passwd1 
    bin 1
    uucp 10
    mail 8
    sync 5
    shutdown 6
    adm 3
    daemon 2
    halt 7
    root 0
    lp 4
    
    
    ========================================================
    
    统计用户名为4个字符的用户:
    [root@aliyun ~]# awk -F: '$1~/^....$/{count++; print $1} END{print "count is: " count}' /etc/passwd
    root
    sync
    halt
    mail
    news
    uucp
    nscd
    vcsa
    pcap
    sshd
    dbus
    jack
    count is: 12
    
    
    [root@aliyun ~]#  awk -F: 'length($1)==4{count++; print $1} END{print "count is: "count}' /etc/passwd
    root
    sync
    halt
    mail
    news
    uucp
    nscd
    vcsa
    pcap
    sshd
    dbus
    jack
    count is: 12
    
  • 相关阅读:
    简单爬虫爬取知乎日报并保存日报网页到本地
    从0开始学爬虫6比价工具开发2之图书信息汇总
    从0开始学爬虫6比价工具开发1之爬取当当、京东的数据
    从0开始学爬虫5之优雅的使用字符串
    从0开始学爬虫4之requests基础知识
    从0开始学爬虫3之xpath的介绍和使用
    从0开始学爬虫2之json的介绍和使用
    从0开始学爬虫1之环境搭建篇
    jenkins结合supervisor进行python程序发布后的自动重启
    ansible常用的方法小结
  • 原文地址:https://www.cnblogs.com/zhaokunhao/p/14944812.html
Copyright © 2011-2022 走看看