zoukankan      html  css  js  c++  java
  • Penn Treebank

    NLP中常用的PTB语料库,全名Penn Treebank。
    Penn Treebank是一个项目的名称,项目目的是对语料进行标注,标注内容包括词性标注以及句法分析。

    语料来源为:1989年华尔街日报
    语料规模:1M words,2499篇文章
    语料价格:1500 ~ 1700$

    Penn Treebank委托Linguistic Data Consortium (LDC) 发行与收费,这意味着你想下载PTB就要去LDC的网站上下载(https://www.ldc.upenn.edu/)。
    PTB有两个发行版,对应的LDC的编号分别为LDC95T7与LDC99742,在LDC中的名称为Treebank-2与Treebank-3。
    这两个版本的语料内容是一样的,除了发行时间不清楚还有啥区别……

    ref:

    http://www.cis.upenn.edu/~treebank/

    https://catalog.ldc.upenn.edu/LDC95T7

    https://catalog.ldc.upenn.edu/LDC99T42

  • 相关阅读:
    POJ1811 Prime Test
    HDU3864 D_num
    HDU2138 How many prime numbers
    SPOJ1812 LCS2
    SPOJ1811 LCS
    SPOJ8222 NSUBSTR
    BZOJ4237 稻草人
    洛谷P3601 签到题
    ThreadLocal 线程的私有内存
    netty in action 笔记 二
  • 原文地址:https://www.cnblogs.com/plwang1990/p/4168256.html
Copyright © 2011-2022 走看看