简介:
PDF是一种广泛使用的文档格式,在本课中我们将学习从PDF文档中提取数据的方法,包括当Selector不稳定时如何使用锚点功能。
学习大纲:
如何使用Read PDF活动
如何使用Read PDF with OCR活动
如何使用锚点(anchor)从PDF的某个字段里获取数据
1. 关于PDF文档
1) 安装PDF扩展活动包
在Activities面板的搜索栏中搜索"pdf",如搜索无结果,说明没有安装PDF的活动包。
安装方法:打开Package Manager,搜索pdf,在搜索结果(UiPath.PDF.Activities)中点击Install。
2) PDF的文本类型
PDF中可以包含文本和图片。有时文本也可能以图片的形式出现。
判断PDF中的某段文字是文本还是图片,可以直接在文件里选中这段文字。如果是可以选中的,就是文本型;如果选择文字时,显示的是一块整的区域(如下图),则是图片型。
2. 提取大段文字(三种方法)
1) Read PDF Text活动
FileName参数:选择PDF文件的路径。
Range参数:选择要读取的页码。如"All","3","3-5"。
Text参数:输出变量。
读取到文本后可以使用Write Text File活动把它写入一个txt文档里,或者进行其他的文本操作。
Read PDF Text活动只能读取可选取的文本,要读取PDF上的图片,可以使用Read PDF With OCR活动。
2) Read PDF With OCR活动
OCR: Optical Character Recognition
首先要在Read PDF With OCR活动中添加一个OCR Engine。目前UiPath有三种OCR Engine:Google,Microsoft和Abbyy FineReader。
还需要在活动的Output参数里设置一个变量,用来存储读取到的文本。
我们可以按需设置OCR Engine的参数(注意:不是Read PDF With OCR活动的参数)。不同的OCR Engine的参数项目可能略有不同。
3) 比较Read PDF Text活动和Read PDF With OCR活动
使用Message Box活动显示Read PDF Text活动和Read PDF With OCR活动读取的PDF数据。
Read PDF Text活动的运行结果:PDF上半部分的可选取文本正常显示,且按照分栏顺序显示。下半部分的图片文本显示为“Sample Text & Image PDF”。
Read PDF With OCR活动的运行结果:能够显示PDF下半部分的图片文本。上半部分的可选取文本虽然也能显示,但是不能按照分栏顺序显示。
*目前大部分OCR Engine还不够智能,不能识别出文本中的分栏布局。但Abby是个例外,它可以保留文本的结构。因此在上面的PDF里,使用Abby可以按照正确的顺序显示文本。
*OCR读取数据的准确率和PDF原图的质量有很大关系。当图片质量较低时,OCR的准确率也会在很大程度上下降。
注意:上述两种PDF活动都是内部活动,可以在后台运行,且不需要打开其他的应用程序(比如阅读PDF的应用Adobe)。
4) Screen Scraping工具
在工具栏里选择Screen Scraping工具,在PDF中指定想要抓取的文本元素,UiPath会显示一个预览界面。
在下图中,红色部分是预览区域,从元素里识别出的文本信息会在这个区域中显示;蓝色部分表示当前使用的Scraping方法;黄色部分表示其他可使用的Scraping方法;点击绿色部分中的UI Element可以重新指定元素。
*使用Screen Scraping工具的Full Text方法,最终生成的活动是一个Attach Window容器和一个Get Full Text活动。
*使用Screen Scraping工具必须先打开PDF文件,且不能在后台运行。
3. 提取某个特定文本
PDF数据类型:Native Text (本地文本)。这种文本元素可以直接被UiPath识别和选中。与之对应的是扫描版的PDF,文本是图片型的文本。
1) 提取这份PDF上的Grand Total的值。
使用Get Text活动(或者直接使用Recording工具录制),选择PDF文件里的Grand Total的值。
2) 假设有很多份类似的PDF,提取每一份PDF上的Grand Total。
思路:修改Get Text活动的Selector,以扩大它的识别范围。
方法1:UiPath自动修改。在Get Text活动的参数面板里编辑Selector,在Selector Editor里点击右上角的Attach to Live Element,再选择另一个PDF文件里的Grand Total。
方法2:手动修改(修改方法仅限此例,更多详情参见Lesson 6 - Selectors)。
在Get Text活动的参数面板里编辑Selector,在Selector Editor里点击左下角的Open in UiExplorer。
在Current UI面板中勾选上的元素即该Selector的组成部分。查看每一个勾选的元素,并在Selector Attributes面板中查看/修改属性。
- text | $40.00 USD:去掉name属性。
- AcroRd32.exe | Samplee Invoice A.pdf - Adobe Reader:去掉title属性。
- row:添加rowName属性。
把 最终得到的Selector复制到之前的Selector Editor中。
4. 使用锚点提取特定文本
1) 添加一个Anchor Base活动。
2) 最典型的Anchor (锚点) 就是Find Element活动。添加该活动,用它来定位某一个固定的元素。在此例中,指定的锚点是PDF上的"Grand Total"。
3) 使用锚点的目的是提取Grand Total的值,因此在Anchor Base活动的右边添加Get Text活动,并指定PDF上Grand Total的值。
4) 不论是Find Element活动还有Get Text活动,它们都有自己的Selector参数。
Get Text活动的Selector:$40.00 USD数值过于具体,可以使用通配符*进行替换,即<ctrl name='$ * USD ' role='text'/>
*由于Get Text活动的Selector根据锚点元素进行定位,这里只显示了完整的Selector的最后一行,即它是一个Partial Selector。
Find Element活动的Selector:
修改前:
修改后:标题的部分用通配符*替换;删除第三行,因为它不包含任何唯一的识别标识。
*Anchor Base活动有一个Anchor Position参数,可以设定锚点相对于数据的位置。在此例中,我们可以设定该参数为Left。
5) 使用Find Image活动作为锚点,替换Find Element活动。
优点:使用Find Element活动作为锚点,只能在相同结构的PDF文档中准确的提取数据。但使用Find Image活动作为锚点,可以不考虑PDF文档的结构,只需要在PDF可见部分的任一位置包含有指定的特定图像即可。另外,使用Find Image活动也不需要花时间去修改和调试Selectors。
- 首先将PDF文档调整为实际大小,以确保获取图片的完整性和准确性:View → Zoom → Actual Size。
- 添加Find Image活动,选取图像。
*Find Image活动能适应一定范围内的尺寸变化。
*使用Anchor Base活动,特别是配合Find Image活动一起使用,常比使用其他方法更加可靠。因为就算PDF文档的主要结构发生变化,只要文字或图片能显示出来,并且和数据的对应关系不变,UiPath就可以提取出数据。
*使用Anchor Base活动必须先打开PDF文档,并且操作的数据必须是可见的(如果数据不在当前页面上,UiPath无法操作该数据)。
5. 其他方法
1) Find Relative Element活动
2) Scrape Relative工具
3) 对于扫描版的PDF,请参阅Lesson 7 - Image and Text Automation学习如何使用UiPath处理图像。
6. 练习
要求:假定每个PDF文档中的数据内容都是不同的,使用锚点来获取Date和Bill To的信息。
思路:添加Anchor Base活动;用Find Element活动确定Date和Bill To的文字标签的位置;用Get Text活动读取数据。注意调整Selector以适应可变的数据。
*本课使用过的新活动、方法、函数等:
Read PDF Text
Read PDF With OCR
Find Relative Element