zoukankan      html  css  js  c++  java
  • NLP工具汇总

    NLP工具汇总

    NLTK

    • 主要用来处理英文
    • 命名实体识别
    • 词性还原(英文)

    Stanford NLP

    • 主要用来处理英文
    • 命名实体识别

    Trankit

    • 依存句法分析

    word2vec

    • 一种的词向量表的表示方式
    • Word2vec 是代码项目的名字,只是计算词嵌入(word embedding)的一个工具

    BERT

    • 中英文皆可,主要用来计算词向量,作为一个Word2Vec的替代者,根据上下文改变向量表示,解决了多义词的表示问题
    • 查找相似词语
    • 提取文本中的实体(需要给定一个模板)
    • 问答中的实体对齐

    ALBERT

    • 在海量中文语料上进行了预训练,模型的参数更少,效果更好。

    pyltp

    • pyltp 是 LTP 的 Python 封装,主要用于中文
    • 分句
    • 分词
    • 词性标注
    • 命名实体识别
    • 语义角色标注(浅层语义分析的一种方式,与谓语的关系)
    • 依存句法分析(语法)

    Gensim

    • TF-IDF(词的重要性,词语消歧)
    • LSA
    • LDA
    • word2vec

    jieba

    • 分词(分词更专业,可添加不切分的词)

    LTP(同pyltp )

    • 词性标注
    • 句法分析

    pkuseg

    • 分词(北大中文)
      • 可以自由地选择不同的模型
        • 新闻领域
        • 网络领域
        • 医药领域
        • 旅游领域
        • 混合领域
    记录学习的点点滴滴
  • 相关阅读:
    Apache、nginx 、lighttpd性能比较
    datapump
    ORA-0600
    在归档模式中,tablespace处于offline状态下,同样可以进行RMAN备份
    一个0级别增量备份小demo
    logminer
    statspack
    flashback table
    constraint
    linux进入单用户模式
  • 原文地址:https://www.cnblogs.com/yangzilaing/p/14713191.html
Copyright © 2011-2022 走看看