zoukankan      html  css  js  c++  java
  • Shell命令行

    利用wc命令统计文件行,单词数,字符数,利用sort排序和去重,再结合uniq可以进行词频统计。

    cat file.txt
    sort hello.c | uniq -c | sort -nr |head -5

    cat命令查看文件格式与内容。先对文件进行排序,再用uniq -c命令统计不同单词及各个单词出现的次数,得到的结果就是次数后面紧挨的单词,然后使用sort -nr对次数进行排序,并逆序显示,最后head -5命令显示结果的前5行。

    类似于sql语句:

    select word,count(1) cnt
    from file
    group by word
    order by cnt desc
    limit 5;

    探索性分析

    常用命令:

    • gzip/tar:压缩/解压
    • cat/zcat:文件查看
    • less/more:文件查看,支持gz压缩格式直接查看,分页查看文件
    • head/tail:查看文件前/后10行
    • wc:统计行数、单词数、字符数
    • du -h -c -s:查看空间占用

    • awk:命令行下数据库操作工具

    • join/cut/paste:关联文件/切分字段/合并文件
    • fgrep/grep/egrep:全局正则表达式查找
    • find:查找文件,并且对查找结果批量化执行任务
    • sed:流编辑器,批量修改、替换文件
    • split:对打文件进行切分处理,按多少行一个文件,或多少字节一个文件
    • rename:批量重名民(Ubuntu上带的Perl脚本,其他系统需要安装),使用-n命令进行测试

      gzip -d a.gz #解压缩日志
      tar zcvf/jcvf one.tar.bz2 one #直接查看压缩日志
      less a.gz #无需先解压

    z开头的几个命令可以简单处理gzip压缩文件,如zcat:直接打印压缩文件,还有zgrep/zfgrep/zegrep,在压缩文件中直接查找

    #查询字符串,并显示匹配行的前3行和后3行内容
    fgrep 'yunjie-talk' -A 3 -B 3 log.txt
    
    #在当前目录(及子目录)下,所有的log文件中搜索字符串hacked by:
    find . -name "*.log" | xargs fgrep "hacked by"

    fgrep,grep,egrep的一些区别:fgrep按字符串的本来意思完全匹配,里面的正则元字符当成普通字符解析,如:fgrep “1.2.3.4”只匹配IP地址:1.2.3.4,其中不会匹配任意字符。fgrep比grep快很多。grep只使用普通的一些正则。egrep或grep -E使用扩展的正则。

    egrep “one|two” #匹配one或two
    grep -E -v ".jpg|.png|.gif|.css|.js" log.txt |wc -l

    查找所有来自日本的IP的请求,先把所有来源IP提取出来,去重,找出日本的IP,放入文件japan.ip,再使用命令:

    cat log.gz | gzip -d | fgrep -f japan.ip > japan.log

    对hive中导出的文件,替换01

    cat 0000* | sed 's/x1/ /g' > log.txt

    其他常用命令

    • date:命令行时间操作函数
    • sort/uniq:排序、去重、统计
    • comm:对两个排序文件进行按行比较(共同行、只出现在左边文件、只出现在右边文件)
    • diff:逐字符比较文件的异同,配合cdiff,类似于github的显示效果
    • curl/w3m/httpie:命令行下进行网络请求
    • iconv:文件编码转换,如:iconv -份GB2312 -t UTF-8 1.csv > 2.csv
    • seq:产生连续的序列,配合for循环使用

    Copyright © 吴华锦
    雅致寓于高阁渔舟唱晚,古典悠然
    格调外发园林绿树萦绕,馥郁清香
  • 相关阅读:
    Privilege(特权)
    Access Control Model(访问控制模型)
    nrm 常用命令
    nrm安装完成运行报错 环境变量配置问题
    nrm : 无法加载文件 C:Program Files odejs rm.ps1,因为在此系统上禁止运行脚本。
    ts 实现简单的video播放器 源码: https://github.com/yuhualiang/miProjectTwo
    ts 弹窗组件
    替换字符串中图片的src
    03-05 变量声明
    03-04 变量声明
  • 原文地址:https://www.cnblogs.com/hanqing/p/5479496.html
Copyright © 2011-2022 走看看