为了方便大家的下载及使用,整理了一些常用的中文语料库。
1.国家语委语料
CorpusWordlist(现代汉语语料库词语频率表):语料规模2000万字
CorpusWordPOSlist(现代汉语语料库词语分词类频率表):预料规模2000万字
下载地址:http://pan.baidu.com/s/1clDJYm 提取密码:uytw
2.人民日报语料
以1998年人民日报语料为对象,将文本分词且标注词性的语料库。
下载地址:http://pan.baidu.com/s/1hs9NWpe 提取密码:kdkd
3.搜狗分类语料
包括对搜狐新闻语料的分类,以及全网新闻语料分类两部分。
下载地址:http://pan.baidu.com/s/1qYGttY8 提取密码:ngtf
4.哈工大语料
包括汉英双语语料库、汉语依存树库、同义词词林扩展版、问答系统问题集、单文档自动文摘语料库、多文档自动文摘语料库。
下载地址:http://pan.baidu.com/s/1o7KkQAe 提取密码:h39a
5.复旦分类语料
将文本分为20个类别。
下载地址:http://pan.baidu.com/s/1hsqRksk 提取密码:1y87
6.分词引擎测试语料
通过不同的分词工具对多种语料进行分词及标注。
下载地址:http://pan.baidu.com/s/1c3U8Cu 提取密码:gmum
7.李荣陆老师的中文语料库
下载地址:http://www.datatang.com/data/119688.谭松波老师的中文文本分类语料
不仅包含大的分类,例如经济、运动等等,每个大类下面还包含具体的小类,例如运动包含篮球、足球等等。
下载地址:http://www.datatang.com/data/11970
9.网易分类文本数据
包含运动、汽车等六大类的4000条文本数据。
下载地址:http://www.datatang.com/data/11965