使用谷歌浏览器找到自己需要的文档却不能复制,复制并整理的解决办法如下:
在浏览器页面按“F12”,出现编码页面:
选择“Console”选项卡,在命令提示后输入“document.body.innerText”后回车,即得到所需要的文本。与网页上的展示对比
选择复制,或点击文末的“Copy”拷贝全文,打开work新建文档粘贴进去。
我们对网页文档和复制下来的代码进行对比:
网页展示:
复制下来的文本为:
复制粘贴的文本中,每个新行都是上一行的中文汉字后跟两个“ ”再跟英文字符作为分隔。我们需要将这种规则的字符段提取出来将“ ”替换为word中的回车。
word中按“ctrl+H”后作如下配置后进行全文替换:
其中各选项说明如下:
查找内容(N):“([一-龥])(\n)(\n)([a-zA-Z])”中的四个元组代表4个字符,“[一-龥]”匹配所有汉字,为第1个元组;“\n”匹配特殊字符“ ”,按照文本中的内容有连续两个,匹配第2、3两个元组;“[a-zA-Z]”匹配一个英文字符,为第4个元组。
替换为(I):“1^p4”中“1”将查找到的第1个元组原样保留;“^p”为添加一个回车;“4”将查找的第4个元组原样保留。第2、第3个元组不再保留丢弃。
务必选中“搜索选项”中的“使用通配符”复选框,否则word无法识别查找替换内容。
点击“全部替换(A)”后是这样的:
再将页码和分页广告部分分离出来手工删除:
这里我们看到已经基本将表格内容展示出来了。随后再将连续两个“ ”替换为制表符,按键“ctrl+H”设置查找替换如下:
最终成为按行以制表符分隔的word文档。
如有需要,还可以将word文档另存为txt后使用excel打开设置表列分隔符为制表符制成excel的表格,查询时更加清晰。具体操作如下:
将word文档另存为txt文档:
这里选择“其他编码(O)”为“简体中文(GB18030)”,否则会出现“标记为红色的文字将无法用所选编码正确保存”的错误提示如下:
笔者使用的word为2019版office。
使用excel打开上述txt文件,文件原始格式选择刚才存储txt文档时使用的“简体中文(GB18030)”,否则会有部分不兼容的情况。
即可看到熟悉的分列提示,按需要设置:
最终转换为excel表格成功。