shell脚本基础和grep文本处理工具企业应用3

zoukankan html css js c++ java

shell脚本基础和grep文本处理工具企业应用3

文本处理工具：
   linux上文本处理三剑客
       grep,egrep,fgrep：文本过滤工具（模式：pattern）工具
           grep：默认支持的是基本正则表达式；-E支持扩展正则表达式，-F不支持正则表达式
           egrep：默认支持的是扩展正则表达式；-G支持基本正则表达式，-F不支持正则表达式
           fgrep：默认不支持正则表达式；-G支持基本正则表达式，-E支持扩展正则表达式
       sed：stream editor，流编辑器，文本编辑工具
       awk：linux上的实现为gawk，文本报告生成器（格式化文本）

       正则表达式：Regual Expression，REGEXP
           由一类特殊字符及文本字符所编写的模式，其中有些字符不表示其字面意义，而是用于表示控制或通配的功能
               分两类：
                   基本正则表达式：BRE
                   扩展正则表达式：ERE

           元字符：(hello[[:space:]]+)+

   grep:Global search REgular expression and Print out the line
       作用：文本搜索工具，根据用户指定的“模式（过滤条件）”对目标文本逐行进行匹配检查；打印匹配到的行
       模式：由正则表达式的元字符及文本字符所编写出的过滤条件

       正则表达式引擎：

       grep [OPTIONS] PATTERN [FILE...]
       grep [OPTIONS] [-e PATTERN | -f FILE] [FILE...]

           OPTIONS：
               --color=auto;对匹配到的文本着色后高亮显示
               -i：ignorecase,忽略字符的大小写
               -o：仅显示匹配到的字符串本身
               -v：--invert-match,表示不能够被模式匹配到的行
               -E：支持使用扩展的正则表达式元字符
               -q：--quiet,--silent,静默模式，不输出任何信息

               -A #:after,同时显示能被匹配到的行的后#行
               -B #:before,同时显示能被匹配到的行的前#行
               -C #:context,同时显示能被匹配到的行的前后各#行

           基本正则表达式的元字符：
               字符匹配：
                   .：匹配任意单个字符
                   []：匹配指定范围内的任意单个字符
                   [^]：匹配指定范围外的任意单个字符
                       [:dight:],[:lower:],[:upper:],[:alpha:],[:alnum:],[:punct:],[:space:]

               匹配次数：
                   用在要指定其出现的次数的字符的后面，用于限制其前面字符出现的次数；默认工作于贪婪模式
                   *：匹配其前面的字符任意次：0,1,多次
                       例如：grep "x*y"
                           abxy
                           aby
                           xxxy
                           yab
                   .*：匹配任意长度的任意字符
                   ?：匹配其前面的字符0次或1次，即其前面的字符是可有可无的
                   +：匹配其前面的字符1次或多次，即其前面的字符要出现至少一次
                   {m}：匹配其前面的字符m次，精确匹配
                   {m,n}：匹配其前面的字符至少m次，至多n次
                       {0,n}：至多n次
                       {m,}：至少m次

               位置锚定：
                   ^：行首锚定；用于模式的最左侧
                   $：行尾锚定；用于模式的最右侧
                   ^PATTERN$：用于PATTERN来匹配整行
                       ^$：空白行
                       ^[[:space:]]*$：空白行或包含空白字符的行

                   单词：非特殊字符组成的连续字符（字符串）都称为单词
                       <或：词首锚定，用于单词模式的左侧
                       >或：词尾锚定，用于单词模式的右侧
                       <PATTERN>：匹配完整单词

               分组及引用：
                   ()：将一个或多个字符捆绑在一起，当作一个整体进行处理
                   xy*ab：表示y可以出现任意次
                   (xy)*ab：因为bash中括号有特殊意义，所以不能直接用括号，可以用来把()进行转译

                   Note：分组括号中的模式匹配到的内容会被正则表达式引擎自动记录于内部的变量中，这些变量为：
                       1：模式从左侧起，第一个左括号以及与之匹配的右括号之间的模式所匹配到的字符
                       2：模式从左侧起，第二个左括号以及与之匹配的右括号之间的模式所匹配到的字符
                       3：
                       ...

                       建立一个文本：
                           He loves his lover.
                           He likes his lover.
                           She likes her liker.
                           She love her liker.
                       ~]# grep "(l..e).*1" lovers.txt
                   后向引用：引用前面的分组括号中的模式所匹配到的字符

查看全文

相关阅读:
[Matlab]二维统计分析图实例
 [Matlab]求解线性方程组
 [图论笔记]基本概念
 [线代笔记]第一章线性方程组解法
 [Graphviz]一些简单的例子（未完待续）
[杂记]如何在LaTeX里插入高亮代码
 [c语言]运算符的优先级与结合性
 [算法]连续子数组最大和
 dp超时的另外一种优化，找规律（四塔问题）
饥饿的牛线性dp内的区间

原文地址：https://www.cnblogs.com/jianchen013/p/11753964.html