zoukankan      html  css  js  c++  java
  • 自然语言处理相关项目列表(2018/02/05更新)

    0x00 中文分词

    1)FoolNLTK

    slogan:可能不是最快的开源中文分词,但很可能是最准的开源中文分词

    仓库地址

    2)CWS_Dict

    论文"Neural Networks Incorporating Dictionaries for Chinese Word Segmentation", AAAI 2018 源码

    仓库地址

    3)multi-criteria-cws

    多标准中文分词的简单解决方案

    仓库地址

    4)jieba

    结巴中文分词

    仓库地址

    5)NLPIR-team/NLPIR

    NLPIR是一套专门针对原始文本集进行处理和加工的软件,提供了中间件处理效果的可视化展示,也可以作为小规模数据的处理加工工具。

    仓库地址

    0X01 命名实体识别

    1)anaGO

    2)golden-horse

    3)LTP

    4)NeuroNER

    使用神经网络实现的命名实体识别,简单易用并达到state-of-the-art的效果。

    仓库地址

    5)shiyybua/NER

    基于tensorflow深度学习的中文的命名实体识别

    仓库地址

    6)nltk

    0x02 词性标注POS-tagging

    1)anaGO

    2)LTP

    3)NLPIR

    仓库地址

    4)jieba

    仓库地址
    “结巴”中文分词:做最好的 Python 中文分词组件

    5)nltk

    0X03 关键词抽取KEYWORD EXTRACTION(FOR DOCUMENT(S))

    1)NLPIR(FOR SHROT TEXT AS WELL)

    仓库地址

    2)jieba

    仓库地址

    TextRank-based

    TFIDF-based

    4) aneesha/RAKE

    仓库地址

    0x04 依存句法DEPENDENCY PARCING

    1) LTP

    2) nltk

    0x05 自然语言理解NLU(SEMANTIC ANALYSIS)

    1)anaGO(SRL)

    2)RasaHQ/rasa_nlu

    将自然语言转换为结构化数据
    仓库地址
    Rasa NLU (Natural Language Understanding) is a tool for understanding what is being said in short pieces of text. For example, taking a short message like:

    "I'm looking for a Mexican restaurant in the center of town"
    And returning structured data like:

      intent: search_restaurant
      entities: 
        - cuisine : Mexican
        - location : center
    

    3)LTP

    4)is13

    Investigation of Recurrent Neural Network Architectures and Learning Methods for Spoken Language Understanding

    仓库地址

    0x06 字词匹配WORDS MATCHING

    1)NLPIR(KeyScanner)

    2)AC AUTOMATON (PYTHON:esmre ahocorasick)

    0X07 实体链接ENTITY LINKING

    1)yahoo/FEL

    快速的实体链接工具集,实现mention连接到Wikipedia。

    仓库地址

    2)dalab/pboh-entity-linking(JAVA)

    论文"Probabilistic Bag-Of-Hyperlinks Model for Entity Linking"的源码。

    仓库地址

    3)CN-DBpedia API

    CN-DBpedia提供全套API,并且免费开放使用。

    WEBSITE

    4)songjs1993/Entity-Linking

    Entity Linking,识别给定文本中出现的命名实体(Named Entity),并映射到特定的知识库中唯一的实体。包括命名实体识别、消歧等工作。

    仓库地址

    5)semanticize/semanticizer

    The Semanticizer是2012年由Daan Odijk开发的用于语义连接的应用。

    仓库地址

    0x08 自动文摘AUTOMATIC SUMMARIZATION

    1)miso-belica/sumy

    针对文本文档和HTML的自动文摘python模块。 https://pypi.python.org/pypi/sumy

    仓库地址

    0x09 主题建模TOPIC MODELING

    1)baidu/Familia

    百度开源的Familia 开源项目包含文档主题推断工具、语义匹配计算工具以及基于工业级语料训练的三种主题模型:Latent Dirichlet Allocation(LDA)、SentenceLDA 和Topical Word Embedding(TWE)。

    仓库地址

    2) Microsoft/LightLDA##

    微软开源的方便快捷轻量的大规模主题建模系统 http://www.dmtk.io

    仓库地址

    0x0A 文本分类TEXT CLASSIFICATION

    1)yoonkim/CNN_sentence

    经典论文Convolutional Neural Networks for Sentence Classification (EMNLP 2014). 的大牛作者的源代码。

    仓库地址

    2)DocumentClassification

    使用TensorFlow实现的简单的用以文本分类的CNN模型。

    仓库地址

    3)lc222/text_classification_AI100

    主要用于文本分类,其中涉及CHI选择特征词,TFIDF计算权重,朴素贝叶斯、决策树、SVM、XGBoost等算法, 实现传统的文本分类并取得了不错的效果。

    仓库地址

    4) dennybritz/cnn-text-classification-tf

    TensorFlow搭建cnn文本分类模型

    仓库地址

    5)gaussic/text-classification-cnn-rnn

    使用卷积神经网络以及循环神经网络进行中文文本分类.基于TensorFlow在中文数据集上的简化实现,使用了字符级CNN和RNN对中文文本进行分类,达到了较好的效果。

    仓库地址

    6)清华大学THUCTC

    THUCTC(THU Chinese Text Classification)是由清华大学自然语言处理实验室推出的中文文本分类工具包,能够自动高效地实现用户自定义的文本分类语料的训练、评测、分类功能。

    仓库地址

    7)jiegzhan/multi-class-text-classification-cnn-rnn

    使用TensorFlow构建的用于多类别分类的 CNN, RNN (GRU and LSTM)模型。

    仓库地址

    0x0B 问答系统QACHATBOT

    1)brmson/yodaqa

    YodaQA 是一个开源的事实型问答系统,他能够利用即时的信息抽取从数据库和非结构化的文本语料中抽取答案。在Freebase和DBPpedia上表现优异。

    仓库地址

    2)ChatterBot

    ChatterBot 是一个用于构建chatbot的集成了机器学习的对话引擎,。http://chatterbot.readthedocs.io

    仓库地址

    3)Conchylicultor/DeepQA

    使用TensorFlow实现论文A Neural Conversational Model 中的google的聊天机器人(seq2seq方法)。

    仓库地址

    4)macournoyer/neuralconvo

    使用Torch实现论文A Neural Conversational Model 中的google的聊天机器人(seq2seq方法)。

    仓库地址

    5) fateleak/chatbot-zh-torch7##

    4)的中文情境下的实现。

    仓库地址

    6)alfredfrancis/ai-chatbot-framework

    使用python的chatbot框架。

    仓库地址

    7)zake7749/Chatbot

    基于向量匹配的情景式聊天机器人。

    仓库地址

    8)qhduan/Seq2Seq_Chatbot_QA

    使用TensorFlow实现的Sequence to Sequence的聊天机器人模型。

    仓库地址

  • 相关阅读:
    228. Summary Ranges
    324. Wiggle Sort II
    42. Trapping Rain Water
    工作之后
    279. Perfect Squares
    391. Perfect Rectangle
    351. Android Unlock Patterns
    246. Strobogrammatic Number
    [LeetCode] 75. Sort Colors Java
    [Java] 80. Remove Duplicates from Sorted Array II Java
  • 原文地址:https://www.cnblogs.com/d0main/p/8176825.html
Copyright © 2011-2022 走看看