zoukankan      html  css  js  c++  java
  • 中文语料库

    为了方便大家的下载及使用,整理了一些常用的中文语料库。

    1.国家语委语料

       CorpusWordlist(现代汉语语料库词语频率表):语料规模2000万字

       CorpusWordPOSlist(现代汉语语料库词语分词类频率表):预料规模2000万字

       下载地址:http://pan.baidu.com/s/1clDJYm          提取密码:uytw

    2.人民日报语料

        以1998年人民日报语料为对象,将文本分词且标注词性的语料库。

       下载地址:http://pan.baidu.com/s/1hs9NWpe          提取密码:kdkd

    3.搜狗分类语料

        包括对搜狐新闻语料的分类,以及全网新闻语料分类两部分。

       下载地址:http://pan.baidu.com/s/1qYGttY8          提取密码:ngtf

    4.哈工大语料

        包括汉英双语语料库、汉语依存树库、同义词词林扩展版、问答系统问题集、单文档自动文摘语料库、多文档自动文摘语料库。

       下载地址:http://pan.baidu.com/s/1o7KkQAe          提取密码:h39a

    5.复旦分类语料

        将文本分为20个类别。

       下载地址:http://pan.baidu.com/s/1hsqRksk          提取密码:1y87

    6.分词引擎测试语料

        通过不同的分词工具对多种语料进行分词及标注。

       下载地址:http://pan.baidu.com/s/1c3U8Cu         提取密码:gmum

    7.李荣陆老师的中文语料库

        下载地址:http://www.datatang.com/data/119688.谭松波老师的中文文本分类语料

       不仅包含大的分类,例如经济、运动等等,每个大类下面还包含具体的小类,例如运动包含篮球、足球等等。

        下载地址:http://www.datatang.com/data/11970

    9.网易分类文本数据

       包含运动、汽车等六大类的4000条文本数据。

       下载地址:http://www.datatang.com/data/11965

  • 相关阅读:
    单词统计
    意见汇总
    项目评审结果
    注册表键值
    C++ 创建快捷方式
    XPosed 示例
    直播流程
    C++隐藏任务栏图标
    C++ 屏幕录制
    DUILIB UI创建过程
  • 原文地址:https://www.cnblogs.com/Climbing-Snail/p/6410723.html
Copyright © 2011-2022 走看看