zoukankan      html  css  js  c++  java
  • 5个很少被提到但能提高NLP工作效率的Python库

    本篇文章将分享5个很棒但是却不被常被提及的Python库,这些库可以帮你解决各种自然语言处理(NLP)工作。

    Contractions

    Contractions它可以扩展常见的英语缩写和俚语。并且可以快速、高效的处理大多数边缘情况,例如缺少撇号。

    例如:以前需要编写一长串正则表达式来扩展文本数据中的(即 don’t → do not;can’t → cannot;haven’t → have not)。Contractions就可以解决这个问题

    Distilbert-Punctuator

    将丢失的标点符号的文本进行断句并添加标点符号……听起来很容易,对吧?对于计算机来说,做到这一点肯定要复杂得多。

    Distilbert-punctuator 是我能找到的唯一可以执行此任务的 Python 库。而且还超级准!这是因为它使用了 BERT 的精简变体。在结合 20,000 多篇新闻文章和 4,000 份 TED Talk 抄本后,对模型进行了进一步微调,以检测句子边界。在插入句尾标点符号(例如句号)时,模型还会适当地将下一个起始字母大写。

    Textstat

    Textstat 是一个易于使用的轻量级库,可提供有关文本数据的各种指标,例如阅读水平、阅读时间和字数。

    Gibberish-Detector

    这个低代码库的主要目的是检测难以理解的单词(或胡言乱语)。它在大量英语单词上训练的模型。

    NLPAug

    最好的要留到最后。

    完整文章

    5个很少被提到但能提高NLP工作效率的Python库

     
  • 相关阅读:
    C#成员设计建议
    基于任务的异步编程模式(TAP)的错误处理
    基于任务的异步编程模式(TAP)
    C#克隆
    C#操作excel打印
    父元素如何围住浮动子元素
    intellij idea创建第一个动态web项目
    Idea快捷键
    Python中列表的copy方法
    C++读取数量不定的数据
  • 原文地址:https://www.cnblogs.com/deephub/p/15735310.html
Copyright © 2011-2022 走看看