C# 使用 iTextSharp 将 PDF 转换成 TXT 文本

 1             var pdfReader = new PdfReader("xxx.pdf");
 2             
 3             StreamWriter output = new StreamWriter(new FileStream("处理结果.txt", FileMode.Create));
 4 
 5             int pageCount = pdfReader.NumberOfPages;
 6             for (int pg = 1; pg <= pageCount; pg++)
 7             {
 8                 ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
 9                 var value = PdfTextExtractor.GetTextFromPage(pdfReader, pg, strategy);
10                 value = value.Replace(" ", "");
11                 Console.WriteLine(value);
12                 output.Write(value);
13             }
14 
15             output.Flush();
16             output.Close();
17             Console.Write("处理完毕");
18             Console.ReadLine();

【该方法是读取 PDF 中的文字不是 OCR 识别图片，如果你的PDF是扫描版书籍那么它实际上是图片，想获取图片文字内容请研究 OCR 方向内容！】

该方法读出的汉字不会乱码。

查看全文

相关阅读:
Centos6.5环境中安装vsftp服务
 MySQL数据库的数据备份和恢复（导入和导出）命令操作语法【转】
linux系统被入侵后处理经历【转】
Linux lsof命令详解和使用示例【转】
Oracle 表空间和用户权限管理【转】
如何在 Linux 中找出最近或今天被修改的文件
 Linux 服务器系统监控脚本 Shell【转】
1张图看懂RAID功能，6张图教会配置服务器【转】
简析TCP的三次握手与四次分手【转】
TCP协议中的三次握手和四次挥手(图解)【转】

原文地址：https://www.cnblogs.com/Aaxuan/p/10545961.html