zoukankan      html  css  js  c++  java
  • 在百度nlp实习一个月时间里用到的shell操作

    文本行中各列打乱:

    awk 'BEGIN{srand()}{for(i=1;i<=NF;i++) b[rand()NF]=$i}END{for(x in b)printf "%s ",b[x]}'` data

    文本行中各行打乱:

    awk 'BEGIN{srand()}{b[rand()NR]=$0}END{for(x in b)print b[x]}' data

    shuf -n1000 data

    以a.txt作为pattern查找b.txt,实际是求2者交集:

    grep -F -x -f a.txt b.txt 

    以a.txt作为pattern查找b.txt,显示不在a.txt中的数据,实际是求差集b-a:

    grep -F -v -x -f a.txt b.txt 

    编码转换:

    iconv -f gb18030 -t utf8 filename 

    以_为分隔符,第二列为键值排序,稳定排序(默认不稳定):

    sort -t_ -k1,2  -s  filename

    对大文件进行外部排序并去重,以temp目录作为缓存:

    sort -u -T temp filename

    sort filename | uniq   -c计数唯一的排序的记录 -d仅仅显示重复的记录 -u仅仅显示没有重复的记录

    在preview中打开awk的man文档:

    man -t awk | open -a Preview -f  

    awk和cut简单用法:

    awk -F: -v 'OFS= ' '{print "all users are:",$1,$2,$3,$4,$5,$6,$7}' /etc/passwd | cut -f 1,6

    wc -l 行数 -c字节数 -w字数

  • 相关阅读:
    pt-tcp-model
    (转)从史上八大MySQL宕机事故中学到的经验
    pt-query-digest
    DNS生效时间
    Python之uuid模块
    一个IO的传奇一生
    Python之Queue模块
    利用freemarker 静态化网页
    FreeMarker教程
    模板引擎freemarker的简单使用教程
  • 原文地址:https://www.cnblogs.com/zzllzy/p/3885149.html
Copyright © 2011-2022 走看看