zoukankan      html  css  js  c++  java
  • awk-sed

    1. awk 模式扫描和处理语言
      1.1 awk常用选项
      1.2 awk示例
    	1.2.1 抽取2列
    	1.2.2 tab键分割列
    	1.2.3 筛选包含.html的行
    	1.2.4 添加标题,添加内容,上面添加的内容被认为为1个字段,没有tab分割
    	1.2.5 拆分
    	1.2.6 统计
    	1.2.7 统计各个connection状态
    	1.2.8 每个用户的进程的占了多少内存
    	1.2.9 打印99乘法表
      1.3 awk内置变量
      1.4 print和printf
    2. sed 用于过滤和转换文本的流编辑器
      2.1 sed常用选项
      2.2 sed示例
    	2.2.1 去掉html里的tag
    	2.2.2 去掉html里的高度参数
      2.3 正则表达式的一些最基本的东西
    3. 更多参考链接

    曾经的上古神器。如今失落的艺术,正被Python等取代。

    • awk (1977)用程序的方式分析文本 模式扫描和处理语言
    • sed (1975)用程序的方式编辑文本 用于过滤和转换文本的流编辑器

    1. awk 模式扫描和处理语言

    简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。
    awk有3个不同版本: awk、nawk和gawk,未作特别说明,一般指gawk,gawk 是 AWK 的 GNU 版本。

    1.1 awk常用选项

    POSIX options: GNU long options: (standard)

    • -f progfile --file=progfile 指定包含awk程序的文件progfile的路径名。
    • -F fs --field-separator=fs 定义输入字段分隔符。fs是一个字符串或者是一个正则表达式,如-F:。
    • -v var=val --assign=var=val 赋值一个用户定义变量。

    1.2 awk示例

    1.2.1 抽取2列

    $ ls -l |awk '{print $3,$9}'
    toma t2.txt
    toma temp.html

    1.2.2 tab键分割列

    $ ls -l |awk '{print $3" "$9}'
    toma t2.txt
    toma temp.html

    1.2.3 筛选包含.html的行

    $ ls -l |awk -F: '/.html/'
    -rw-r--r-- 1 toma users   28240 Apr  6 15:19 systemd.html
    -rw-r--r-- 1 toma users   33323 Apr 10 23:23 temp.html

    $ ls -l |awk '/.html/{print $3" "$9}'

    如下3个等效
    $ awk '/pci/{print $3" "$9}' hwinfo.txt
    $ awk '/pci/{print $3,$9}' OFS=" " hwinfo.txt
    $ cat hwinfo.txt | awk '/pci/{print $3,$9}' OFS=" "

    /etc/passwd文件先指定:分割字段,再使用tab分隔输出
    $ awk -F ':' '{print $1" "$7}' /etc/passwd
    $ awk -F ':' '{print $1,$7}' OFS=" " /etc/passwd
    $ awk -F ':' 'BEGIN {print "name,shell"} {print $1,$7} END {print "blue,/bin/nosh"}' OFS=" " /etc/passwd

    1.2.4 添加标题,添加内容,上面添加的内容被认为为1个字段,没有tab分割

    $ awk -F ':' 'BEGIN {print "name","shell"} {print $1,$7} END {print "blue","/bin/nosh"}' OFS=" " /etc/passwd

    $ awk -F ':' 'BEGIN {print "name","shell"} {print $1,$7} {print "blue","/bin/nosh"} {print "blue2","/bin/nosh"}' OFS=" " /etc/passwd

    1.2.5 拆分

    $ ls -l |awk '{print > $2}' OFS=" "
    不指定列,仅拆分,原样输出,后面的OFS=" "不起作用。
    $ ls -l |awk '{print $2,$3,$5,$9}' OFS=" " |awk '{print > $1}'
    这样即可tab分割后再拆分,或者:
    ls -l |awk '{print $2,$3,$5,$9 > $2}' OFS=" "

    若第一列是标题,可参考如下方式
    $ awk 'NR!=1{print > $2}' ss0.txt

    1.2.6 统计

    $ ls -l |awk '{sum+=$5} END {print sum}'
    20639404
    $ ls -l |awk '{sum+=$5} END {print "size is:",sum/1024/1024,"Mb"}'
    size is: 19.6929 Mb
    过滤4096大小的文件(一般都是文件夹)
    $ ls -l |awk 'BEGIN {size=0;print "[start]size is ", size} {if($5!=4096){size=size+$5;}} END{print "[end]size is ", size/1024/1024,"M"}'
    [start]size is  0
    [end]size is  19.6499 M

    1.2.7 统计各个connection状态

    $ awk 'NR!=1{a[$2]++;} END {for (i in a) print i ", " a[i];}' ss0.txt
    ESTAB, 732
    SYN-SENT, 2

    $ awk '{sum[$1]+=1} END {for(k in sum) print k ":" sum[k]}' ss0.txt
    $ awk '{sum[$1]+=1} END {for(k in sum) print k ":" sum[k]}' ss0.txt | sort -n -r -k 2 -t ':'

    1.2.8 每个用户的进程的占了多少内存

    $ ps aux | awk 'NR!=1{a[$1]+=$6;} END { for(i in a) print i ", " a[i]"KB";}'
    systemd+, 2316KB
    rtkit, 1920KB
    polkitd, 14452KB
    dbus, 3540KB
    toma, 5678404KB
    root, 269856KB

    1.2.9 打印99乘法表

    $ seq 9 | sed 'H;g' | awk -v RS='' '{for(i=1;i<=NF;i++)printf("%dx%d=%d%s", i, NR, i*NR, i==NR?" ":" ")}'
    1x1=1
    1x2=2 2x2=4
    1x3=3 2x3=6 3x3=9
    1x4=4 2x4=8 3x4=12 4x4=16
    1x5=5 2x5=10 3x5=15 4x5=20 5x5=25
    1x6=6 2x6=12 3x6=18 4x6=24 5x6=30 6x6=36
    1x7=7 2x7=14 3x7=21 4x7=28 5x7=35 6x7=42 7x7=49
    1x8=8 2x8=16 3x8=24 4x8=32 5x8=40 6x8=48 7x8=56 8x8=64
    1x9=9 2x9=18 3x9=27 4x9=36 5x9=45 6x9=54 7x9=63 8x9=72 9x9=81

    1.3 awk内置变量

    awk有许多内置变量用来设置环境信息,这些变量可以被改变,下面给出了最常用的一些变量。

    ARGC 命令行参数个数
    ARGV 命令行参数排列
    ENVIRON 支持队列中系统环境变量的使用
    FILENAME awk浏览的文件名
    FNR 浏览文件的记录数
    FS 设置输入域分隔符,等价于命令行 -F选项. 默认是空格或Tab
    NF 浏览记录的域的个数. 当前记录中的字段个数,就是有多少列
    NR 已读的记录数. 就是行号.
    OFS 输出域分隔符. 字段分隔符, 默认也是空格
    RS 控制记录分隔符. 默认为换行符
    ORS 输出记录分隔符. 默认为换行符
    $0 当前记录(这个变量中存放着整个行的内容)
    $1~$n 当前记录的第n个字段,字段间由FS分隔

    1.4 print和printf

    awk中同时提供了print和printf两种打印输出的函数。

    其中print函数的参数可以是变量、数值或者字符串。字符串必须用双引号引用,参数用逗号分隔。如果没有逗号,参数就串联在一起而无法区分。这里,逗号的作用与输出文件的分隔符的作用是一样的,只是后者是空格而已。

    printf函数,其用法和c语言中printf基本相似,可以格式化字符串,输出复杂时,printf更加好用,代码更易懂。

    $ awk -F ':' '{print "filename:" FILENAME ",linenumber:" NR ",columns:" NF ",linecontent:"$0}' /etc/passwd
    $ awk -F ':' '{printf("filename:%10s,linenumber:%s,columns:%s,linecontent:%s ",FILENAME,NR,NF,$0)}' /etc/passwd

    2. sed 用于过滤和转换文本的流编辑器

    2.1 sed常用选项

    -n, --quiet, --silent suppress automatic printing of pattern space 抑制图案空间的自动打印
    --debug annotate program execution 注释程序执行
    -e script, --expression=script add the script to the commands to be executed 将脚本添加到要执行的命令中
    -f script-file, --file=script-file add the contents of script-file to the commands to be executed 将script-file的内容添加到要执行的命令中
    --follow-symlinks follow symlinks when processing in place 在处理时遵循符号链接
    -i[SUFFIX], --in-place[=SUFFIX] edit files in place (makes backup if SUFFIX supplied) 编辑文件(如果提供SUFFIX,则进行备份)
    -l N, --line-length=N specify the desired line-wrap length for the `l' command 为`l'命令指定所需的换行长度
    --posix disable all GNU extensions. 禁用所有GNU扩展。
    -E, -r, --regexp-extended use extended regular expressions in the script (for portability use POSIX -E). 在脚本中使用扩展的正则表达式(为了便携性使用POSIX -E)
    -s, --separate consider files as separate rather than as a single, continuous long stream. 将文件视为单独的而不是单个连续的长流。
    --sandbox operate in sandbox mode (disable e/r/w commands). 在沙箱模式下运行(禁用e / r / w命令)
    -u, --unbuffered load minimal amounts of data from the input files and flush the output buffers more often 从输入文件加载最少量的数据并更频繁地刷新输出缓冲区
    -z, --null-data separate lines by NUL characters 由NUL字符分隔的行
    --help display this help and exit 显示此帮助并退出
    --version output version information and exit 输出版本信息并退出

    2.2 sed示例

    用s命令替换
    $ sed "s/my/Hao Chen's/g" pets.txt
    注意:上面的sed并没有对文件的内容改变,只是把处理过后的内容输出,如果你要写回文件,你可以使用重定向,如:
    $ sed "s/my/Hao Chen's/g" pets.txt > hao_pets.txt
    或使用 -i 参数直接修改文件内容:
    $ sed -i "s/my/Hao Chen's/g" pets.txt

    在每一行最前面加点东西: #
    $ sed 's/^/#/g' pets.txt

    在每一行最后面加点东西: ---
    $ sed 's/$/ --- /g' pets.txt

    只替换第3行的文本。
    $ sed "3s/my/your/g" pets.txt
    只替换第3到第6行的文本。
    $ sed "3,6s/my/your/g" pets.txt

    只替换每一行的第一个s:
    $ sed 's/s/S/1' my.txt

    只替换每一行的第二个s:
    $ sed 's/s/S/2' my.txt

    只替换第一行的第3个以后的s:
    $ sed 's/s/S/3g' my.txt

    多个匹配
    如果我们需要一次替换多个模式,可参看下面的示例:(第一个模式把第一行到第三行的my替换成your,第二个则把第3行以后的This替换成了That)
    $ sed '1,3s/my/your/g; 3,$s/This/That/g' my.txt
    上面的命令等价于:(注:下面使用的是sed的-e命令行参数)
    sed -e '1,3s/my/your/g' -e '3,$s/This/That/g' my.txt

    2.2.1 去掉html里的tags

    $ sed 's/<[^>]*>//g' html.txt

    错误示例: sed 's/<.*>//g' html.txt 会有问题. 上面的'[^>]' 指定了除了>的字符重复0次或多次。

    2.2.2 去掉html里的高度参数

    查找所有高度参数
    $ grep height=".." 1.html
    <td align="left" height="20">RS</td>
    <td align="left" height="23">ORS</td>

    删除表格内高度参数
    $ sed 's/height="..">/>/g' 1.html |grep align
    <td align="left" >OFS</td>
    <td align="left" >RS</td>
    写入文件
    $ sed -i 's/height="..">/>/g' 1.html

    其他命令及操作
    a命令就是 append, i命令就是insert,它们是用来添加行的

    Pattern Space (模式空间); Hold Space (保留空间)
    注意: Append (附加) 与拷贝不同,会附加到目标位置原始内容换行后.

    • g: 将hold space中的内容拷贝到pattern space中,原来pattern space里的内容清除
    • G: 将hold space中的内容append到pattern space 后
    • h: 将pattern space中的内容拷贝到hold space中,原来的hold space里的内容被清除
    • H: 将pattern space中的内容append到hold space 后
    • x: 交换pattern space和hold space的内容


    2.3 正则表达式的一些最基本的东西

    ^ 表示一行的开头。 如:/^#/ 以#开头的匹配。
    $ 表示一行的结尾。 如:/}$/ 以}结尾的匹配。
    < 表示词首。 如:<abc 表示以 abc 为首的詞。
    > 表示词尾。 如:abc> 表示以 abc 結尾的詞。
    . 表示任何单个字符。  
    * 表示某个字符出现了0次或多次。  
    [ ] 字符集合。 如:[abc] 表示匹配a或b或c,还有 [a-zA-Z] 表示匹配所有的26个字符。如果其中有^表示反,如 [^a] 表示非a的字符


    3. 更多参考链接

    https://coolshell.cn/articles/9070.html
    AWK 简明教程

    内建变量,参看: http://www.gnu.org/software/gawk/manual/gawk.html#Built_002din-Variables
    流控方面,参看: http://www.gnu.org/software/gawk/manual/gawk.html#Statements
    内建函数,参看: http://www.gnu.org/software/gawk/manual/gawk.html#Built_002din
    正则表达式,参看:http://www.gnu.org/software/gawk/manual/gawk.html#Regexp

    https://www.cnblogs.com/ggjucheng/archive/2013/01/13/2858470.html

    https://coolshell.cn/articles/9104.html
    SED 简明教程
    http://www.gnu.org/software/sed/manual/sed.html

    https://zh.wikipedia.org/wiki/正则表达式
    https://en.wikipedia.org/wiki/Regular_expression

  • 相关阅读:
    进程与线程的区别与联系
    IPC 进程间通信
    sql中的group by 和 having 用法
    大端小端格式
    Spring AOP的一个比喻和IOC的作用
    volatile变量
    策略模式
    划分算法与快速排序
    希尔排序及希尔排序java代码
    红黑树
  • 原文地址:https://www.cnblogs.com/sztom/p/11290184.html
Copyright © 2011-2022 走看看