NLTK中文语料库sinica_treebank

zoukankan html css js c++ java

NLTK中文语料库sinica_treebank
python机器学习-乳腺癌细胞挖掘（博主亲自录制视频）https://study.163.com/course/introduction.htm?courseId=1005269003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share

http://www.hankcs.com/program/python/nltk-chinese-corpus-sinica_treebank.html

NLTK包含Sinica （中央研究院）提供的繁体中文语料库，其在Python环境下的显示有些讲究。

NLTK sinica_treebank 显示中文

在IDLE中如果直接查看的话会显示十六进制码：
1. >>> from nltk.corpus import sinica_treebank
2. >>> sinica_treebank.words()
3. ['xe4xb8x80', 'xe5x8fx8bxe6x83x85', ...]
如果想在IDLE中查看这些进制码对应的中文的话，可以：
1. >>> print 'xe4xb8x80'
2. 一
NLTK中文词性标注

一个一个手动print太蠢了，一段代码自动让它好看起来：
1. # -*- coding:utf-8 -*-
2. # Filename: sinica_treebank.py
3. # Author：hankcs
4. # Date: 2014-04-08 上午11:44
5. import nltk
6. from nltk.corpus import sinica_treebank
8. sinica_text = nltk.Text(sinica_treebank.words())
9. print sinica_text
10. for (key, var) in sinica_treebank.tagged_words()[:8]:
11. print '%s/%s' % (key, var),
输出：
1. <Text: 一友情嘉珍和我住在同一條巷子...>
2. 一/Neu 友情/Nad 嘉珍/Nba 和/Caa 我/Nhaa 住在/VC1 同一條/DM 巷子/Nab
NLTK中文句法树
1. >>> sinica_treebank.parsed_sents()[15].draw()
真是神奇的Python！

搜索中文文本

在IDLE中不方便调编码，还是写进py文件吧：
1. # -*- coding:utf-8 -*-
2. # Filename: sinica_treebank.py
3. # Author：hankcs
4. # Date: 2014-04-08 上午11:44
5. import nltk
6. from nltk.corpus import sinica_treebank
8. sinica_text = nltk.Text(sinica_treebank.words())
9. print sinica_text.concordance('我')
输出：
1. Building index...
2. Displaying 25 of 724 matches:
3. 我住在同一條巷子我們是 �
4. �� 一起回家有一天上學時我到她家等候按了門鈴卻
5. ��鈴卻沒有任何動靜正當我想離開時門內突然傳來
6. �� 了門大聲的叫著快點我媽媽暈倒了嘉珍抓起我 �
7. � 我媽媽暈倒了嘉珍抓起我的手急忙往屋裡跑進入
8. 得像紙一樣這種情景把我嚇壞了怎麼辦嘉珍不停 �
9. ��停的哭泣聲音有些顫抖我的腦海中頓時一片空白 �
10. � 怎麼辦才好過了一會兒我才問她你爸爸呢他出差
11. 他出差了嘉珍擦著眼淚我握住她的雙手她的手又
12. �� 這時有個念頭突然閃過我的眼前我幫她撥了一一
13. � 念頭突然閃過我的眼前我幫她撥了一一九請救護�
14. 她的背安慰她不要著急我會陪你的不久救護車停
15. ��上救護車嘉珍上車前對我說謝謝你的幫忙我握著
16. 前對我說謝謝你的幫忙我握著她的手說不用謝 �
17. �� 握著她的手說不用謝我因為我們是好朋友二無�
18. 員外來找他並且對他說我看你悶悶不樂是不是進京
19. �� 著他的手說你不用還我了我只是盡一份心力而�
20. �� 的手說你不用還我了我只是盡一份心力而已以�
21. 銀子含著眼淚說謝謝您我不知道要怎麼來報答您
22. 答您江巡撫說你不必謝我也不必回報我四快樂的
23. 你不必謝我也不必回報我四快樂的閱讀課上國語�
24. �� 這一組做讀書心得報告我第一個站起來發言我們閱
25. �過兩人成為知心的朋友我說完之後組長站起來補充
26. 清理火山灰而且欣賞落日我喜歡這種自由自在的生活
27. 的人也不喜歡虛偽的人我覺得小王子很正直最後 �
28. None
这里面的�大概是字体的原因吧，毕竟不是繁体中文系统。本文的原作者指出：

concordance 會出現 � 的原因是因為這個字的被切一半 , 因為 UTF-8 編碼中文要有三個byte ‘xe4xb8x80′ , 出現�� 表示被切成這樣 ‘xe4xb8′, 少一個 byte

茅塞顿开。

控制台乱码的话可能需要decode成unicode然后在encode成gb编码：
1. s = "中文"
3. if isinstance(s, unicode):
4. # s=u"中文"
5. print s.encode('gb2312')
6. else:
7. # s="中文"
8. print s.decode('utf-8').encode('gb2312')
NLTK计算中文高频词
1. >>> sinica_fd=nltk.FreqDist(sinica_treebank.words())
2. >>> top100=sinica_fd.items()[0:100]
3. >>> for (x,y) in top100:
4. print x,y
7. 的 6776
8. 、 1482
9. 在 1331
10. 是 1317
11. 了 1190
12. 有 759
13. 我 724
14. 他 688
15. 就 627
16. 上 612
17. 和 580
18. 也 542
19. 不 526
20. 人 467
21. 都 417
22. 與 404
23. 著 389
24. 我們 384
初步的NLTK中文玩法就这些了，还是挺不错的。

https://study.163.com/provider/400000000398149/index.htm?share=2&shareId=400000000398149（博主视频教学主页）
查看全文

相关阅读:
mysql时间戳转换成可读时间格式
 浅谈依赖注入与控制反转
 win下安装wget以及使用wget
Mysql 压力测试工具 mysqlslap
PHP Web木马扫描器
 PHP双向队列，双端队列代码
 20款响应式bootstrap后台模板源码下载
 15款fullpage.js鼠标滚动页面动画展示特效
 20款网页常用的返回顶部代码
 21款大气的全屏图片切换代码

原文地址：https://www.cnblogs.com/webRobot/p/6047684.html

NLTK中文语料库sinica_treebank

python机器学习-乳腺癌细胞挖掘（博主亲自录制视频）https://study.163.com/course/introduction.htm?courseId=1005269003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share

NLTK sinica_treebank 显示中文

NLTK中文词性标注

NLTK中文句法树

搜索中文文本

NLTK计算中文高频词