zoukankan      html  css  js  c++  java
  • linux统计单词数

    sort +awk+uniq 统计文件中出现次数最多的前10个单词

    实例
    cat logt.log|sort -s -t '-' -k1n |awk '{print $1;}'|uniq -c|sort -k1nr|head -100


    使用linux命令或者shell实现:文件words存放英文单词,格式为每行一个英文单词(单词可以重复),统计这个文件中出现次数最多的前10个单词。

    cat words.txt | sort | uniq -c | sort -k1,1nr | head –10

     

    主要考察对sort、uniq命令的使用,相关解释如下,命令及参数的详细说明请自行通过man查看,简单介绍下以上指令各部分的功能:

    sort:  对单词进行排序

    uniq -c:  显示唯一的行,并在每行行首加上本行在文件中出现的次数

    sort -k1,1nr:  按照第一个字段,数值排序,且为逆序

    head -10:  取前10行数据

    参考: http://man.linuxde.net/

  • 相关阅读:
    Read-Copy Update Implementation For Non-Cache-Coherent Systems
    10 华电内部文档搜索系统 search04
    10 华电内部文档搜索系统 search05
    lucene4
    10 华电内部文档搜索系统 search01
    01 lucene基础 北风网项目培训 Lucene实践课程 索引
    01 lucene基础 北风网项目培训 Lucene实践课程 系统架构
    01 lucene基础 北风网项目培训 Lucene实践课程 Lucene概述
    第五章 大数据平台与技术 第13讲 NoSQL数据库
    第五章 大数据平台与技术 第12讲 大数据处理平台Spark
  • 原文地址:https://www.cnblogs.com/yepei/p/5649212.html
Copyright © 2011-2022 走看看