我们经常会将2个有关联文本文件进行合并处理。分别从不同文件获取需要的列,然后, 整体输出到一起。awk进行多文件处理时候,常常会遇到2个方面问题,第一个是怎么样合并多个文件为一个文件。第二个问题就是怎么样将多行合并为一行显 示。我这里说下我的处理2种方法,还有实现思路。
[chengmo@centos5 shell]$awk'FNR==1{print " "FILENAME}{print $0}'a.txt b.txt
a.txt100 wang man200 wangsan woman300 wangming man400 wangzheng manb.txt100 90 80200 80 70300 60 50400 70 20需要合并得到结果:
100 wang man 90 80
200 wangsan woman 80 70
300 wangming man 60 50
400 wangzheng man 70 20
-
awk多文件操作方法一:
-
首先:
123456789[chengmo@centos5 shell]$cata.txt b.txt |sort-n -k1 |awk'{print}'100 90 80100 wangman200 80 70200 wangsan woman300 60 50300 wangmingman400 70 20400 wangzhengman
现在需要把:第一列相同的处理合并到一行,这里需要用“next”语句。它操作,可以参考awk 多行合并【next 使用介绍】(常见应用4)
继续:
12345[chengmo@centos5 shell]$cata.txt b.txt |sort-n -k1 |awk'NR%2==1{fd1=$2" "$3;next}{print $0" "fd1}'100 wangman90 80200 wangsan woman 80 70300 wangmingman60 50400 wangzhengman70 20需要把几行合并,经常用到方法是:NR%num 然后将行值保存下来,next该行。在输出时候打印出来。
-
awk多文件操作方法二
首先:
不借助第3放工具打开,直接通过awk 打开多个文件。然后可以通过:FILENAME获得当前处理文件名。NR总记录 FNR当前文件记录,以及ARGC传入参数总数,ARGV是数组,各个参数值。
[chengmo@centos5 shell]$awk'BEGIN{print ARGC,ARGV[0],ARGV[1],ARGV[2]}{print FILENAME,NR,FNR,$0}'a.txt b.txt3awka.txt b.txta.txt 1 1 100 wangmana.txt 2 2 200 wangsan womana.txt 3 3 300 wangmingmana.txt 4 4 400 wangzhengmanb.txt 5 1 100 90 80b.txt 6 2 200 80 70b.txt 7 3 300 60 50b.txt 8 4 400 70 20程序代码:
123456789101112131415161718192021222324252627[chengmo@centos5 shell]$awk'BEGIN{if(ARGC<3){exit1;}file="";}{aData[FILENAME,$1]=ARGV[1]==FILENAME?$0:$2" "$3;}END{for(kinaData){split(k,idx,SUBSEP);if(idx[1]==ARGV[1] && (ARGV[2],idx[2])inaData){print aData[ARGV[1],idx[2]],aData[ARGV[2],idx[2]] |"sort -n -k1";}}}' a.txt b.txt100 wangman90 80200 wangsan woman 80 70300 wangmingman60 50400 wangzhengman70 20代码说明:
这里用到2维数组,aData[文件名,关联列对应值] ,这种方法可以将多个文件内容。放入一个统一二维数组。然后循环数组,通过if((i,j} in array) 查找对应列值,在其它文件中是否存在。
以上是2种实现方法,其中第一种思路较为简单,很容易理解。第二种处理起来较为复杂。