zoukankan      html  css  js  c++  java
  • 把文本中重复的行删除(只保留一条)

    在进行文本处理的时候,会经常遇到要删除重复行的情况。有三种常见方法:
      第一,用sort+uniq,注意,单纯uniq是不行的,
                   sort -k2n file | uniq
         这里我做了个简单的测试,当file中的重复行不再一起的时候,uniq将服务删除所有的重复行。经过排序后,所有相同的行都在相邻,因此unqi可以正常删除重复行。
      第二,用sort+awk命令,注意,单纯awk同样不行,原因同上。
                     sort -k2n file | awk '{if ($0!=line) print;line=$0}'
           如果全部用awk来解决,也可以不需要sort命令先排序拉。

      第三,用sort+sed命令,同样需要sort命令先排序。
                    sort -k2n file | sed '$!N; /^/(.*/)/n/1$/!P; D'
           解释一下:将当前行及下一行放入模式空间,直到遇到$, " /^/(.*/)/n/1 "该条件可以确定模式空间中的两行
    是否为相同的行.
    ————————————————
    版权声明:本文为CSDN博主「小Tian」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
    原文链接:https://blog.csdn.net/edei2004/article/details/3694163

  • 相关阅读:
    717. 1比特与2比特字符
    697. 数组的度
    674. 最长连续递增序列
    665. 非递减数列
    661. 图片平滑器
    643. 子数组最大平均数 I
    plink计算两个SNP位点的连锁不平衡值(LD)
    GWAS群体分层校正,该选用多少个PCA
    PyCharm的安装和应用
    GWAS后续分析:多基因风险评分(Polygenic Risk Score)的计算
  • 原文地址:https://www.cnblogs.com/mingyunrangwozoudaoxianzai/p/13279079.html
Copyright © 2011-2022 走看看