zoukankan      html  css  js  c++  java
  • pdf转word出现很多换行符将一整行切断

    1、问题: 

    pdf转word时,文章中会出现数个换行符,其中包括两种类型的换行符:

    1)正常的行结尾。特点是“句号+换行符”

    2)非正常的行中换行。特点是在两个正常的文字中间突然出现“换行符”,从而导致一整行被切断。

    2、解决方案:

    将换行符替换为空格。但是这样做,会误伤正常的行结尾换行符。因此,需要先将正常的行结尾换行符替换为一个文章中从未出现过的特殊字符,从而将其保护起来。

    然后再替换文章中行中换行符。

    3、具体步骤

    1)使用文档中未出现过的特殊字符(如“&&&&&&”)替换文章中的“句号+换行符”

    2)使用空格替换文章中多余的换行符

    3)使用“句号+换行符” 替换 特殊字符(如“&&&&&&”)

    注意:

    1) ^p匹配换行符

    2)文中截图中  “. ”匹配的是英文状态下的句号,如果是中文句号结尾,则应写成 “。”

    3)特殊字符的选择原则是:文章中未出现过


    上文讨论的是,pdf文字粘贴到word中,word文字会多很多换行符号。其实,还有可能出现下面这种类似换行符的“手动换行符”

                                

    遇到这种手动换行符,就不能用 ^p  匹配了,这时候要用   ^l   来匹配。

  • 相关阅读:
    Linux下docker安装教程
    基于spark邮件自动分类
    多项式相关算法集成
    基于Bert的文本情感分类
    基于sklearn的分类器实战
    LDA && NCA: 降维与度量学习
    DataStream API介绍和示例
    Apache Flink 简单介绍和入门
    Hbase 表设计和高级属性
    hbase基础shell操作
  • 原文地址:https://www.cnblogs.com/taoyuanming/p/12877020.html
Copyright © 2011-2022 走看看