linux bash shell 统计一个文本中单词频率的脚本详解

zoukankan html css js c++ java

linux bash shell 统计一个文本中单词频率的脚本详解
```
#!/bin/bash

end=$1

cat $2|
tr -cs "[a-z][A-Z]" "
" |
	tr A-Z a-z |
		sort |
			uniq -c |
				sort -k1nr -k2 |
					head -n$end
```
这段bash脚本接收两个参数，分别是 $1和$2，$1表示显示频率最高的$1个单词（即结果中的前$1行），而$2则表示要分析的文件路径。

接下来就是一系列命令了，这些命令用 | 符号分割开，该符号表示重定向，把上一个命令的结果传递给下一个命令。

cat 命令打开文件

tr 命令：tr是transform的缩写，该命令是著名的流处理命令sed的简化版，也是用来对文档进行转换的。

tr -cs “[a-z][A-Z]" " " -c表示取“[a-z][A-Z]"的补集（complement），-s 表示把连续的匹配压缩成一个” “，所以整个命令就是把除了字母外的其他字符一律压缩成换行符，如果有连续的匹配，则只转换成一个换行符。

tr A-Z a-z 把大写统一转换成小写。

sort 排序按字母顺序

uniq 去重该命令必须对排序好的文档进行，-c 表示打印出字母的重复次数

然后再次 sort ，这次sort比较复杂，因为在uniq命令后输出结果已经变成了如下形式：

n word (单词的重复次数+空格+单词)

所以 -k1nr表示对第一列(-k1)的数字形式(-n)的变量进行逆序(-r 从大到小)排列 , -k2表示在前面的排序基础上对重复次数一致的单词进行按字母顺序的排列。

最后是head -n$1，表示只显示结果的前$1行。

如果要显示第5行到第10行,则可以使用sed 命令把head -n$1 替换成 sed -n '5,10p‘
查看全文

相关阅读:
String.valueOf()方法的使用
 springMVC中ModelAndView学写笔记
 赛邮云通信
 DOS命令
 完全二叉树一维数组存放的结点相关关系
 Float与二进制之间的转化（Java实现）
碎片知识1
hashtable——散列表
 Huffman Tree
Unable to update the EntitySet 'T_JsAPI' because it has a DefiningQuery and no <InsertFunction> element exists in the <ModificationFunctionMapping> element to support the current operation.

原文地址：https://www.cnblogs.com/rav009/p/5131135.html

linux bash shell 统计一个文本中 单词 频率的 脚本详解

linux bash shell 统计一个文本中单词频率的脚本详解