zoukankan html css js c++ java

NLTK实现文本切分

之前已经了解了使用nltk库，将文本作为参数传入相应函数进行切分的方法，下面看看使用正则表达式如何来进行文本切分。

1. 使用正则表达式切分

1.1 通过RegexpTokenizer 进行切分。先导入 RegexpTokenizer 模块，然后构建一个与文本中的标识符相匹配的正则表达式。将此正则表达式作为参数传入RegexpTokenizer ，同时实例化一个对象，使用此对象对文本进行切分。

from nltk.tokenize import RegexpTokenizer

# RegexpTokenizer() 参数是将要匹配的字符串的正则表达式，返回值是所有匹配到的字符串组成的列表
tokenizer = RegexpTokenizer("w+")
print(tokenizer.tokenize("Don't hesitate to ask questions!"))

运行结果：

['Don', 't', 'hesitate', 'to', 'ask', 'questions']

1.2 使用 regexp_tokenize 切分。

from nltk.tokenize import regexp_tokenize
sentence = "My name is QWE, and I'm 22 years old."
print(regexp_tokenize(sentence, pattern= 'w+|$[d.]+|S+'))

运行结果：

['My', 'name', 'is', 'QWE', ',', 'and', 'I', "'m", '22', 'years', 'old', '.']

1.3 以空格为分界点进行切分

from nltk.tokenize import RegexpTokenizer

tok = RegexpTokenizer('s+', gaps= True)
print(tok.tokenize("Don't hesitate to ask questions"))

1.4 筛选以大写字母开头的单词

from nltk.tokenize import RegexpTokenizer
sentence = "My name is QWE, and I'm 22 years old.I'm from China"
capt = RegexpTokenizer('[A-Z]w+')
print(capt.tokenize(sentence))

结果：

['My', 'QWE', 'China']

（看起来都像是直接用正则匹配的。。）

1.5 使用WhitespaceTokenizer可以通过返回元组形式的序列来进行切分，该序列为标识符在语句中的位置和偏移量。

from nltk.tokenize import WhitespaceTokenizer
sentence = " She secured 90.56 % in class X 
. She is a meritorious student
"
print(list(WhitespaceTokenizer().span_tokenize(sentence)))

结果：

[(1, 4), (5, 12), (13, 18), (19, 20), (21, 23), (24, 29), (30, 31), (33, 34), (35, 38), (39, 41), (42, 43), (44, 55), (56, 63)]

查看全文

相关阅读:
usb3.0 bMaxBurst最大支持多少个这个描述符什么时候被读取
 盒式图|加置信椭圆的散点图|分组盒式图|分组散点图|马赛克图|
协方差分析|随机区组设计|样本单位|样本容量|变异系数|片面误差|抽样误差|真实性|精密度|重复性|精确程度|计数数据|区间变量|离散型变量|数值变量
 试验指标|试验单位|均方|随机模型|固定模型|字母标记法|LSR|q检验|LSD|重复值|弥补缺失数据|可加性|平方根转换|对数转换|反正弦转化
 2×c列联表|多组比例简式|卡方检验|χ2检验与连续型资料假设检验
 显著水平|区间估计|假设检验|显著性|第一类错误|Ⅱ类错误|β错误|t检验|连续性矫正|二项分布的假设检验|样本百分率|
估计量|估计值|矩估计|最大似然估计|无偏性|无偏化|有效性|置信区间|枢轴量|似然函数|伯努利大数定理|t分布|单侧置信区间|抽样函数|
单因素方差分析
 左偏|有偏|中心极限定理|卡方分布|
正交试验

原文地址：https://www.cnblogs.com/zrmw/p/10875684.html