zoukankan      html  css  js  c++  java
  • 怎样简单高效删除历史数据,只保留最新30天的数据

    背景:有实时产生的数据按小时分文件保存,如“/data/2013/09/18/14.txt”。现需要保留30天的最新数据,而删除所有其它的历史数据。注意“保留30天的最新数据”,可能不是连续的30天,中间若某一天数据缺失,也必须把最新的30天的数据保留下来。


    思路:获取所有数据路径列表,去除最新30天的数据路径,然后遍历删除。若是使用脚本语言来开发(如php,python),循环获取路径列表的代码就已经比较臃肿了,效率也不高,特别是文件目录特多的时候。使用shell应该更方便和高效

    rm -rf `find /data/*/*/*/ -type d|awk '{a[NR]=$0}END{n=asort(a,sa)-30;for(i=1;i<=n;i++){print sa[i]}}'`

    词命令还存在一个隐患,rm的参数字符长度可能超过1024的限制,修改如下

    find /data/*/*/*/ -type d|awk '{a[NR]=$0}END{n=asort(a,sa)-30;for(i=1;i<=n;i++){print sa[i]}}'|xargs -I{} rm -rf {}

    这个命令里使用了find,效率还是有些不满意,使劲的寻找更高效获取路径列表的方式。哈哈,黄天不负苦心人啊,终于找到一个

    echo /data/*/*/*/|awk '{for(i=1;i<=NF;i++){a[i ]=$i}}END{n=asort(a,sa)-30;for(i=1;i<=n;i++){print sa[i ]}}'|xargs -I{} rm -rf {}

    使用time命令测试运行速度,第二条命令和第三条命令其运行时间分别是0.007s和0.002s,后者快了3倍


    但郁闷的是,我不知道“echo /data/*/*/*/“到底是怎么个原理,有什么限制等等,网上也还没有搜索到相关资料,有知道的朋友请告知一下啊




  • 相关阅读:
    简单手风琴特效、轮播
    MVC
    文字自动下拉隐藏显示
    jQuery基础 DOM操作
    JQuery基础
    SQL 中的常用函数及使用
    数据库中的T-sql语句 条件修改 高级查询
    2017-03-09 数据库的基本东西
    C#中的冒泡排序
    C#中的数组
  • 原文地址:https://www.cnblogs.com/riskyer/p/3339439.html
Copyright © 2011-2022 走看看