zoukankan      html  css  js  c++  java
  • 浏览器中复制不能复制的文档并使用word通配符进行高级替换整理

    使用谷歌浏览器找到自己需要的文档却不能复制,复制并整理的解决办法如下:

    在浏览器页面按“F12”,出现编码页面:

    选择“Console”选项卡,在命令提示后输入“document.body.innerText”后回车,即得到所需要的文本。与网页上的展示对比

     选择复制,或点击文末的“Copy”拷贝全文,打开work新建文档粘贴进去。

    我们对网页文档和复制下来的代码进行对比:

    网页展示:

    复制下来的文本为: 

    复制粘贴的文本中,每个新行都是上一行的中文汉字后跟两个“ ”再跟英文字符作为分隔。我们需要将这种规则的字符段提取出来将“ ”替换为word中的回车。

    word中按“ctrl+H”后作如下配置后进行全文替换:

     其中各选项说明如下:

      查找内容(N):“([一-龥])(\n)(\n)([a-zA-Z])”中的四个元组代表4个字符,“[一-龥]”匹配所有汉字,为第1个元组;“\n”匹配特殊字符“ ”,按照文本中的内容有连续两个,匹配第2、3两个元组;“[a-zA-Z]”匹配一个英文字符,为第4个元组。

      替换为(I):“1^p4”中“1”将查找到的第1个元组原样保留;“^p”为添加一个回车;“4”将查找的第4个元组原样保留。第2、第3个元组不再保留丢弃。

      务必选中“搜索选项”中的“使用通配符”复选框,否则word无法识别查找替换内容。

    点击“全部替换(A)”后是这样的:

    再将页码和分页广告部分分离出来手工删除:

    这里我们看到已经基本将表格内容展示出来了。随后再将连续两个“ ”替换为制表符,按键“ctrl+H”设置查找替换如下:

     最终成为按行以制表符分隔的word文档。

    如有需要,还可以将word文档另存为txt后使用excel打开设置表列分隔符为制表符制成excel的表格,查询时更加清晰。具体操作如下:

    将word文档另存为txt文档:

    这里选择“其他编码(O)”为“简体中文(GB18030)”,否则会出现“标记为红色的文字将无法用所选编码正确保存”的错误提示如下:

     笔者使用的word为2019版office。

    使用excel打开上述txt文件,文件原始格式选择刚才存储txt文档时使用的“简体中文(GB18030)”,否则会有部分不兼容的情况。

    即可看到熟悉的分列提示,按需要设置:

    最终转换为excel表格成功。

  • 相关阅读:
    Redis--过期键策略(惰性删除、定期删除)
    Redis--数据库(个数16、键空间、过期字典、过期策略)
    Redis--事件(serverCron)
    ArrayList是如何扩容的?
    Java的四大引用类型
    类加载机制,双亲委派模型及其优点
    GC调优思路
    modcount的作用
    JVM的常见的垃圾收集器
    什么是临界区?如何解决冲突(也就是临界区的调度原则)?
  • 原文地址:https://www.cnblogs.com/phever/p/15141736.html
Copyright © 2011-2022 走看看