zoukankan      html  css  js  c++  java
  • linux-grep

    1. grep
        1.1 grep的与或非举例
        1.2 其他常用例子
        1.3 更多选项
    2 正则表达式
        2.1 概念
        2.2 大部分正则表达式的形式都有如下的结构:
        2.3 精确的语法可能因不同的工具或程序而异。
    3. 实例
        3.1 查找html文件里所有高度参数
        3.2 删除表格内高度参数
        3.3 写入文件

    1. grep

    grep – 在文件中搜索模式,打印模式匹配成功的行,可以搜索一个或多个文件。
    这里的模式匹配与文本编辑器里的字段搜索,通配符模糊查找不同之处是使用正则表达式,是一套完整的模式表示规则。

    1.1 grep的与或非举例

    and
    $ grep pci hwinfo.txt |grep devices

    or -E
    $ grep 'pci|devices' hwinfo.txt
    $ grep -E 'pci|devices' hwinfo.txt

    非 -v
    $ grep -v pci hwinfo.txt

    1.2 其他常用例子

    单词精确查找 -w
    $ grep -w pci hwinfo.txt
    仅查找独立的pci单词。即不包括ppci,pci1等前后有其他字母或数字,包含pci的词。

    忽略大小写 -i
    $ grep -i pci hwinfo.txt

    统计行数 -c
    $ grep -i pci hwinfo.txt | grep -vc pci-0000

    输出包含行号 -n
    $ grep -i pci hwinfo.txt | grep -vn pci-0000

    打印包含字段的文件名 -l
    $ grep -l pci hwinfo.txt s.json
    hwinfo.txt

    打印不包含字段的文件名 -L
    $ grep -L pci hwinfo.txt s.json
    s.json

    1.3 更多选项

      匹配选择: Pattern selection and interpretation: 模式选择和解释:
    -E, --extended-regexp PATTERNS are extended regular expressions 使用扩展正则表达式匹配。
    -F, --fixed-strings PATTERNS are strings 使用固定字符串匹配。
    -G, --basic-regexp PATTERNS are basic regular expressions PATTERNS是基本的正则表达式 (默认)
    -P, --perl-regexp PATTERNS are Perl regular expressions PATTERNS是Perl正则表达式
      匹配控制:    
    -e, --regexp=PATTERNS use PATTERNS for matching 使用PATTERNS进行匹配
    -f, --file=FILE take PATTERNS from FILE 从文件中获取PATTERNS
    -i, --ignore-case ignore case distinctions 忽略案例区别. 忽略大小写
    -w, --word-regexp match only whole words 只匹配整个单词. 如果还指定了-x,则此选项无效。
    -x, --line-regexp match only whole lines 只匹配整条线
    -v, --invert-match select non-matching lines 选择不匹配的行
      一般输出控制: Output control:  
    -c, --count print only a count of selected lines per FILE 仅打印每个FILE所选行的计数. 使用-v,计算不匹配的行。
      --color[=WHEN], use markers to highlight the matching strings; 使用标记突出显示匹配的字符串;
      --colour[=WHEN] WHEN is 'always', 'never', or 'auto' 什么时候是“永远”,“从不”或“自动”
    -L, --files-without-match print only names of FILEs with no selected lines 仅打印没有选定行的FILE名称
    -l, --files-with-matches print only names of FILEs with selected lines 仅打印具有选定行的FILE名称
    -m, --max-count=NUM stop after NUM selected lines NUM选择行后停止
    -o, --only-matching show only nonempty parts of lines that match 仅显示匹配的非线性部分
    -q, --quiet, --silent suppress all normal output 抑制所有正常输出
    -s, --no-messages suppress error messages 抑制错误消息
      输出行前缀控制:    
    -b, --byte-offset print the byte offset with output lines 输出打印字节偏移量
    -H, --with-filename print file name with output lines 打印每个匹配的文件名。当有多个要搜索的文件时,这是默认设置。
    -h, --no-filename suppress the file name prefix on output 禁止输出上的文件名前缀。当只有一个文件(或仅标准输入)时,这是默认设置。
      --label=LABEL use LABEL as the standard input file name prefix 使用LABEL作为标准输入文件名前缀
    -n, --line-number print line number with output lines 输出打印行号
    -T, --initial-tab make tabs line up (if needed) 制作标签队列(如果需要). 初始选项卡
    -Z, --null print 0 byte after FILE name 在FILE名称后打印0字节。 输出零字节(ASCII NUL字符).
      上下文行控制: Context control:  
    -A, --after-context=NUM print NUM lines of trailing context 打印NUM行尾随上下文
    -B, --before-context=NUM print NUM lines of leading context 打印NUM行前导上下文
    -C, --context=NUM print NUM lines of output context 打印NUM行输出上下文
    -NUM   same as --context=NUM 与--context = NUM​​相同
      文件和目录选择:    
    -a, --text equivalent to --binary-files=text 相当于--binary-files = text; 像处理文本一样处理二进制文件;
      --binary-files=TYPE assume that binary files are TYPE; 假设二进制文件是TYPE; TYPE is 'binary', 'text', or 'without-match'
    -D, --devices=ACTION how to handle devices, FIFOs and sockets; ACTION is 'read' or 'skip' 如何处理设备,FIFO和插座; ACTION is 'read' or 'skip'
    -d, --directories=ACTION how to handle directories; ACTION is 'read', 'recurse', or 'skip' 如何处理目录; ACTION is 'read', 'recurse'递归, or 'skip'
      --exclude=GLOB skip files and directories matching GLOB 跳过与GLOB匹配的文件和目录
      --exclude-from=FILE skip files matching any file pattern from FILE 跳过与FILE中的任何文件模式匹配的文件
      --exclude-dir=GLOB skip directories that match GLOB 跳过与GLOB匹配的目录
      --include=GLOB search only files that match GLOB (a file pattern) 仅搜索与GLOB匹配的文件(文件模式)
    -I   equivalent to --binary-files=without-match 相当于--binary-files =不匹配; 处理二进制文件,就像它不包含匹配数据一样
    -r, --recursive like --directories=recurse 只有符号链接在命令行上时,才能递归地读取每个目录下的所有文件。如果没有给出文件操作数,grep将搜索工作目录。这相当于-d recurse选项
    -R, --dereference-recursive likewise, but follow all symlinks 递归地读取每个目录下的所有文件。跟随所有符号链接,与-r不同。
      其他选择: Miscellaneous:  
    -V, --version display version information and exit 显示版本信息并退出
      --help display this help text and exit 显示此帮助文本并退出
      --line-buffered flush output on every line 在输出上使用行缓冲。这可能会导致性能下降。
    -U, --binary do not strip CR characters at EOL (MSDOS/Windows) 不要在EOL(MSDOS/Windows)中删除CR字符。将文件视为二进制文件。
    -z, --null-data a data line ends in 0 byte, not newline 将输入和输出数据视为行序列,每个行以零字节(ASCII NUL字符)而不是换行符

    2 正则表达式

    https://zh.wikipedia.org/wiki/正则表达式
    https://en.wikipedia.org/wiki/Regular_expression

    2.1 概念

    正则表达式(英语:Regular Expression,在代码中常简写为regex、regexp或RE)(有时称为rational expression理性表达),又称正则表示式、正则表示法、规则表达式、常规表示法,是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。

    自20世纪80年代以来,用于编写正则表达式的不同语法已经存在,一个是POSIX标准,另一个是广泛使用的Perl语法。
    许多程序设计语言都支持利用正则表达式进行字符串操作。例如,在Perl中就内建了一个功能强大的正则表达式引擎。正则表达式这个概念最初是由Unix中的工具软件(例如sed,awk和grep)普及开的。正则表达式用于搜索引擎,搜索和替换文字处理器和文本编辑器的对话框,文本处理实用程序(如sed和AWK)以及词法分析。许多编程语言都提供内置或通过库的正则表达式功能。

    正则表达式(通常称为模式)是用于指定特定目的所需的一组字符串的表达式。指定有限字符串集的简单方法是列出其元素或成员。但是,通常有更简洁的方法来指定所需的字符串集。例如,包含三个字符串“Handel”,“Händel”和“Haendel”的集合可以由模式 H(ä|ae?)ndel 指定。

    2.2 大部分正则表达式的形式都有如下的结构:

    Boolean "or" 布尔“或”

    • 竖线|代表选择(即或集),具有最低优先级。例如gray|grey可以匹配grey或gray。

    Quantification 数量限定
    某个字符后的数量限定符用来限定前面这个字符允许出现的个数。最常见的数量限定符包括+、?和*(不加数量限定则代表出现一次且仅出现一次):

    • 问号?代表前面的字符最多只可以出现一次。(0次或1次)。例如,colou?r可以匹配color或者colour;
    • 加号+代表前面的字符必须至少出现一次。(1次或多次)。例如,goo+gle可以匹配google、gooogle、goooogle等;
    • 星号*代表前面的字符可以不出现,也可以出现一次或者多次。(0次、1次或多次)。例如,0*42可以匹配42、042、0042、00042等。

    匹配

    • 圆括号()可以用来定义操作符的范围和优先度。例如,gr(a|e)y等价于gray|grey,(grand)?father匹配father和grandfather。

    上述这些构造子都可以自由组合,因此H(ae?|ä)ndel和H(a|ae|ä)ndel是相同的。

    2.3 精确的语法可能因不同的工具或程序而异。

    正则表达式有多种不同的风格。
    更多语法及具体规则在可参阅:https://en.wikipedia.org/wiki/Regular_expression

    https://en.wikipedia.org/wiki/Comparison_of_regular_expression_engines
    正则表达式引擎的比较

    正则表达风味比较 - 最流行的正则表达风味的详细比较
    http://www.regular-expressions.info/refflavors.html

    Regexp语法摘要
    http://www.greenend.org.uk/rjk/2002/06/regexp.html

    在线正则表达式测试 - 支持Java,JavaScript,.Net,PHP,Python和Ruby
    http://www.regexplanet.com/

    实现正则表达式 - RE2的作者Russ Cox的系列文章
    https://swtch.com/~rsc/regexp/

    正则表达式引擎
    http://www.softec.lu/site/RegularExpressions/RegularExpressionEngines

    3. 实战

    3.1 查找html文件里所有高度参数

    $ grep height=".." 1.html
    <td align="left" height="20">RS</td>
    <td align="left" height="23">ORS</td>

    3.2 删除表格内高度参数

    $ sed 's/height="..">/>/g' 1.html |grep align
    <td align="left" >OFS</td>
    <td align="left" >RS</td>

    3.3 写入文件

    $ sed -i 's/height="..">/>/g' 1.html

  • 相关阅读:
    java之集合Collection 3个例子
    利用 ssh 的用户配置文件 config 管理 ssh 会话
    angularJS--apply() 、digest()和watch()方法
    37.创业团队不是天堂
    Android DiskLruCache 源码解析 硬盘缓存的绝佳方案
    sublime安装AngularJS插件
    angularJS 服务--$provide里factory、service方法
    angularJS--多个控制器之间的数据共享
    angularJS---自定义过滤器
    依赖反转
  • 原文地址:https://www.cnblogs.com/sztom/p/11297170.html
Copyright © 2011-2022 走看看