zoukankan      html  css  js  c++  java
  • C# 使用 iTextSharp 将 PDF 转换成 TXT 文本

     1             var pdfReader = new PdfReader("xxx.pdf");
     2             
     3             StreamWriter output = new StreamWriter(new FileStream("处理结果.txt", FileMode.Create));
     4 
     5             int pageCount = pdfReader.NumberOfPages;
     6             for (int pg = 1; pg <= pageCount; pg++)
     7             {
     8                 ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
     9                 var value = PdfTextExtractor.GetTextFromPage(pdfReader, pg, strategy);
    10                 value = value.Replace(" ", "");
    11                 Console.WriteLine(value);
    12                 output.Write(value);
    13             }
    14 
    15             output.Flush();
    16             output.Close();
    17             Console.Write("处理完毕");
    18             Console.ReadLine();

    【该方法是读取 PDF 中的文字不是 OCR 识别图片,如果你的PDF是扫描版书籍那么它实际上是图片,想获取图片文字内容请研究 OCR 方向内容!】

    该方法读出的汉字不会乱码。

  • 相关阅读:
    MySQL锁系列3 MDL锁
    MySQL锁系列2 表锁
    MySQL锁系列1
    MySQL open table
    MySQL优化器join顺序
    MySQL优化器cost计算
    MySQL源码 优化器
    MySQL源码 解析器
    MySQL源码 数据结构hash
    微信小程序爬坑日记
  • 原文地址:https://www.cnblogs.com/Aaxuan/p/10545961.html
Copyright © 2011-2022 走看看