zoukankan      html  css  js  c++  java
  • 文本提取工具 TextHelper

    文本提取工具

    可以从一段文本中提取中特定格式的文本。

     


     

    举例:
    1. 从HTML源代码中提取出所有jpg类型的图片地址输出。

    处理代码:
    $Regex:http://.+/?\.jpg$
    $@0$

    输出结果:所以匹配正则表达式的内容


    2. 为文本中所有TextHelper按先后顺序编号,并转换为小写。

    处理代码:
    $Regex:TextHelper$
    $declare @count Integer(0,1)$
    $@count.Next()$: $ToLower(@0)$

    输出结果:
    1:texthelper
    2:texthelper
    3:texthelper
    ......

    语法说明

    程序中的所有代码需要包含在二个$中才会被识别

    处理代码

    ·         代码语法

    1.  输入正则表达式
    $Regex:在此输入正则表达式$

    2.  注释
    $*这是注释*$

    1.  定义类型为Integer的对象@VarName
    $declare @VarName Integer(0,1)$

    2.  输出对象@VarName
    $@VarName$

    3.  调用对象@VarName的Next方法并输出返回值
    $@VarName.Next()$

    4.  调用函数ToLower将变量@VarName转换为小写字符串
    $ToLower(@VarName)$

    ·           序列类型

    1.   Integer(start,step)
    整型序列类型
    参数
    start: 类型初始值
    step:步进值,每次调用Next方法时增加
    成员方法
    Next()  获取下一个值

    2.   Decimal(start,step)
    浮点序列类型
    参数
    start: 类型初始值
    step:步进值,每次调用Next方法时增加
    成员方法
    Next()  获取下一个值

    ·           函数

    1.   ToLower(object)
    将变量或字符串转换为小写形式
    参数
    object:待转换的对象;可为字符串或对象变量

    2.   ToUpper (object)
    将变量或字符串转换为大写形式
    参数
    object:待转换的对象;可为字符串或对象变量

    ·           内置变量

    正则表达式的组可做为内置变量使用。

    1.   整个表达式匹配的值可以变量@0引用

    2.   表达式第一个组匹配的值可以用变量@1引用,其它以此类推

    3.   如果捕获组限定了组名,则只能通过组名的变量引用
    如正则表达式:\b(?<GName>word)\b
    可以通过变量@GName引用这个组

    ·           字符转义
    \$
    转义$字符,使其失去原有意义

    源文本

    ·           导入文本
    除在源文本区输入文本外也可以使用指令从外部导入文本,语法如下:

    1. 以默认的字符编码导入一个文本
     $include:http://www.a.com/test.html$

    2. 以utf-8编码方式导入一个文本
     $include<utf-8>:http://www.a.com/test.html$

    3. 以默认的字符编码导入多个文本(每个文本以换行分隔)
     $include:{
     
    http://www.a.com/test.html
     d:\dir\test.html
     }$

    4.以utf-8的字符编码导入多个文本(每个文本以换行分隔)
     $include<utf-8>:{
     
    http://www.a.com/test.html
     d:\dir\test.html
     }$

     下载地址:单击下载

  • 相关阅读:
    Java抓取网页数据(原网页+Javascript返回数据)
    jvm调优
    Windows系统下nodejs安装及配置
    《学习opencv》笔记——矩阵和图像操作——cvCalcCovarMatrix,cvCmp and cvCmpS
    数据结构与算法一
    Oracle Hints具体解释
    hibernate-4.3.5安装配置
    linux-多线程
    利用JasperReport+iReport进行Web报表开发
    linux下tar.xz 文件解压
  • 原文地址:https://www.cnblogs.com/mondol/p/1625956.html
Copyright © 2011-2022 走看看