zoukankan      html  css  js  c++  java
  • 句法分析工具 LTP HanLP

    参考:http://cslt.riit.tsinghua.edu.cn/mediawiki/images/e/e5/%E5%8F%A5%E6%B3%95%E5%B7%A5%E5%85%B7%E5%88%86%E6%9E%90.pdf

    http://pyltp.readthedocs.io/zh_CN/latest/api.html

    https://pypi.python.org/pypi/pyltp

    https://github.com/hankcs/HanLP

    使用 pyltp

    pyltp 是 LTP 的 Python 封装,提供了分词,词性标注,命名实体识别,依存句法分析,语义角色标注的功能。

    使用 HanLp

    HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

    HanLP提供下列功能:

    • 中文分词
      • 最短路分词
      • N-最短路分词
      • CRF分词
      • 感知机中文分词
      • 索引分词
      • 极速词典分词
      • 用户自定义词典
    • 词性标注
      • HMM词性标注
      • 感知机词性标注
    • 命名实体识别
      • 中国人名识别
      • 音译人名识别
      • 日本人名识别
      • 地名识别
      • 实体机构名识别
      • 感知机命名实体识别
    • 关键词提取
      • TextRank关键词提取
    • 自动摘要
      • TextRank自动摘要
    • 短语提取
      • 基于互信息和左右信息熵的短语提取
    • 拼音转换
      • 多音字
      • 声母
      • 韵母
      • 声调
    • 简繁转换
      • 繁体中文分词
      • 简繁分歧词(简体、繁体、臺灣正體、香港繁體)
    • 文本推荐
      • 语义推荐
      • 拼音推荐
      • 字词推荐
    • 依存句法分析
      • 基于神经网络的高性能依存句法分析器
      • MaxEnt依存句法分析
      • CRF依存句法分析
    • 文本分类
      • 情感分析
    • word2vec
      • 词向量训练、加载、词语相似度计算、语义运算、查询、KMeans聚类
      • 文档语义相似度计算
    • 语料库工具
      • 分词语料预处理
      • 词频词性词典制作
      • BiGram统计
      • 词共现统计
      • CoNLL语料预处理
      • CoNLL UA/LA/DA评测工具

    在提供丰富功能的同时,HanLP内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布,使用非常方便,同时自带一些语料处理工具,帮助用户训练自己的模型。

    待续。。

  • 相关阅读:
    消息队列介绍
    SpringBoot随笔-SpringBoot集成Druid
    Redis-Redis基本类型及使用Java操作
    信息安全
    计算机网络基础
    多媒体技术
    数据库基础
    程序设计基础
    计算机软件体系
    计算机硬件体系
  • 原文地址:https://www.cnblogs.com/TMatrix52/p/8270285.html
Copyright © 2011-2022 走看看