zoukankan      html  css  js  c++  java
  • 巧用NotePad++ 做文本处理

    利用Notepad++处理文本,其中涉及文本的合并,去除空行,插件安装,查找与替换等。

    首先,批量处理文本,也就是把所有的语料放到一个txt文档中。很好办,cmd命令下输入如下操作符就可以了。(表示把E盘目录下Camera文件下的所有东西都写入到Camera.txt文档中,Camera.txt自动创建的。

     

    如果操作成功,则显示如下:

     

    然后到E盘Camera.txt中查看就行了。(Notepad++ 打开)

    然后就是文本的处理的,发现文本中含有如图红线所示的东西,那么就去掉吧!

    选择“搜索”---“替换”,先从简单的开始。

    下面替换部分敲“空格”就OK了。这样就依次把<DOC> </DOC><TEXT>等去掉了。

     

    剩下的就是比较复杂点的<DOCID>*****</DOCID>,因为****部分是变化了,所以使用正则表达式处理。如图:

    这样就把所有不相干的东西处理掉了!如图:干净了很多了。

    最后就是处理文档,按照“。”、”!“,”?“等标示句子结束的符号进行分句。好办,不用写程序,还是用NotePad++ 啦!

    点击“搜索”———“替换”(跟刚才一样)

    查找目标部分写入“。”“?”等等,一次处理一个吧!替换部分输入“\r”表示换行。

    切记:下面一定要勾选“扩展”,然后“全部替换”。就OK了!其他符号也是这么处理滴。看看效果:

    已经分好行了,但是还有很多空白行,十分不美观。下面就是处理空白行了。这个得安装一个叫textfx的插件。

    把压缩包中的文件放到Notepad++安装目录下的plugins目录下,然后重启NotePad++,就出现了。

     

    首先,选择如图(表示去除多余的空格):

    然后,CTRL+A,全选,

    选择,TextFX----TextFX Edit---Delete Blank Lines 就行了。

    最后效果如下:

     

  • 相关阅读:
    Hibernate关系映射(一) 基于外键的单向一对一
    Hibernate开发环境搭建
    Java创建和读取Json
    Json 简易教程
    jQuery Validate验证框架详解
    asp.net Core 3.1配置log4net
    HTTP 错误 500.21
    SQL中数据库 无法访问,并且数据库的属性中 使用人数、大小、可用空间全是不可用
    What is a CGFloat?
    Swift中的CGPoint ,CGSize 、CGRect、CGFloat
  • 原文地址:https://www.cnblogs.com/shanlanjie/p/2418274.html
Copyright © 2011-2022 走看看