zoukankan      html  css  js  c++  java
  • Ruby中Yomu包从word,execl,pdf中读取文字

    这几天一直在处理各种pdf文档,对于那些可以从pdf中复制出来的文字,我都是先手动把文字从pdf中复制出来,然后再用程序处理他的格式以及相关信息,但是一个程序员怎能采取如此笨的方法呢,今天无意间发现ruby有一个yomu的它可以从这些文档中华获取文字,格式很乱,还需要后期的处理,下面就来看看yomu如何从这些文档中获取文字。

    • 从给定的文件名中来读取文字(用的最多的方式)
    requier "yomu"
    yomu = Yomu.new 'sample.pages'
    text = yomu.text
    
    • 从url中获取文字(这个我还没有试过)
    require "yomu"
    yomu = Yomu.new 'http://svn.apache.org/repos/asf/poi/trunk/test-data/document/sample.docx'
    text = yomu.text
    

    官方文档说的是必须要有一个可以运行的jre,里面有一些是java的包,需要jre才可以运行
    以上这些都是我浅略的理解,后续还会更新,欢迎指正

  • 相关阅读:
    c++ builder 获取命令行参数
    c++ builder 只允许程序运行一个实例
    jQuery学习笔记(三)
    jQuery学习笔记(二)
    jQuery实现一个弹出登陆层的效果
    jQuery学习笔记(一)
    20117月
    201112学习
    21125
    211211
  • 原文地址:https://www.cnblogs.com/dccmmtop/p/6897062.html
Copyright © 2011-2022 走看看