zoukankan      html  css  js  c++  java
  • 中文语料库

    为了方便大家的下载及使用,整理了一些常用的中文语料库。

    1.国家语委语料

       CorpusWordlist(现代汉语语料库词语频率表):语料规模2000万字

       CorpusWordPOSlist(现代汉语语料库词语分词类频率表):预料规模2000万字

       下载地址:http://pan.baidu.com/s/1clDJYm          提取密码:uytw

    2.人民日报语料

        以1998年人民日报语料为对象,将文本分词且标注词性的语料库。

       下载地址:http://pan.baidu.com/s/1hs9NWpe          提取密码:kdkd

    3.搜狗分类语料

        包括对搜狐新闻语料的分类,以及全网新闻语料分类两部分。

       下载地址:http://pan.baidu.com/s/1qYGttY8          提取密码:ngtf

    4.哈工大语料

        包括汉英双语语料库、汉语依存树库、同义词词林扩展版、问答系统问题集、单文档自动文摘语料库、多文档自动文摘语料库。

       下载地址:http://pan.baidu.com/s/1o7KkQAe          提取密码:h39a

    5.复旦分类语料

        将文本分为20个类别。

       下载地址:http://pan.baidu.com/s/1hsqRksk          提取密码:1y87

    6.分词引擎测试语料

        通过不同的分词工具对多种语料进行分词及标注。

       下载地址:http://pan.baidu.com/s/1c3U8Cu         提取密码:gmum

    7.李荣陆老师的中文语料库

        下载地址:http://www.datatang.com/data/119688.谭松波老师的中文文本分类语料

       不仅包含大的分类,例如经济、运动等等,每个大类下面还包含具体的小类,例如运动包含篮球、足球等等。

        下载地址:http://www.datatang.com/data/11970

    9.网易分类文本数据

       包含运动、汽车等六大类的4000条文本数据。

       下载地址:http://www.datatang.com/data/11965

  • 相关阅读:
    判断一个表里面有没有相同的数据
    ASP.NET面试题公司必考<1>
    jQuery 实现三级联动
    javascript 面试大全
    Javascript 实现倒计时跳转页面代码
    SQL删除重复数据只保留一条 .
    编写SQL语句查询出每个各科班分数最高的同学的名字,班级名称,课程名称,分数
    Silverlight 和javascript 之间的调用
    delphi 开放数组参数
    SPCOMM控件在Delphi7.0串口通信中的应用
  • 原文地址:https://www.cnblogs.com/Climbing-Snail/p/6410723.html
Copyright © 2011-2022 走看看