zoukankan      html  css  js  c++  java
  • 中文语料库

    为了方便大家的下载及使用,整理了一些常用的中文语料库。

    1.国家语委语料

       CorpusWordlist(现代汉语语料库词语频率表):语料规模2000万字

       CorpusWordPOSlist(现代汉语语料库词语分词类频率表):预料规模2000万字

       下载地址:http://pan.baidu.com/s/1clDJYm          提取密码:uytw

    2.人民日报语料

        以1998年人民日报语料为对象,将文本分词且标注词性的语料库。

       下载地址:http://pan.baidu.com/s/1hs9NWpe          提取密码:kdkd

    3.搜狗分类语料

        包括对搜狐新闻语料的分类,以及全网新闻语料分类两部分。

       下载地址:http://pan.baidu.com/s/1qYGttY8          提取密码:ngtf

    4.哈工大语料

        包括汉英双语语料库、汉语依存树库、同义词词林扩展版、问答系统问题集、单文档自动文摘语料库、多文档自动文摘语料库。

       下载地址:http://pan.baidu.com/s/1o7KkQAe          提取密码:h39a

    5.复旦分类语料

        将文本分为20个类别。

       下载地址:http://pan.baidu.com/s/1hsqRksk          提取密码:1y87

    6.分词引擎测试语料

        通过不同的分词工具对多种语料进行分词及标注。

       下载地址:http://pan.baidu.com/s/1c3U8Cu         提取密码:gmum

    7.李荣陆老师的中文语料库

        下载地址:http://www.datatang.com/data/119688.谭松波老师的中文文本分类语料

       不仅包含大的分类,例如经济、运动等等,每个大类下面还包含具体的小类,例如运动包含篮球、足球等等。

        下载地址:http://www.datatang.com/data/11970

    9.网易分类文本数据

       包含运动、汽车等六大类的4000条文本数据。

       下载地址:http://www.datatang.com/data/11965

  • 相关阅读:
    在返回值拒绝——reference
    传参时,使用引用替换变量
    C++设计与声明——让接口容易被正确使用
    三角函数的天下
    渲染流水线
    设置Shader关键字高亮(网上转)
    平衡二叉树,AVL树之代码篇
    2017-2018-1 20155205 嵌入式C语言——时钟
    GDB基础学习
    20155205 《信息安全系统设计基础》课程总结
  • 原文地址:https://www.cnblogs.com/Climbing-Snail/p/6410723.html
Copyright © 2011-2022 走看看