Keras文本预处理详解

zoukankan html css js c++ java

Keras文本预处理详解
汇总

Tokenizer分词器（类）

Tokenizer.fit_on_texts分词器方法：实现分词

Tokenizer.texts_to_sequences分词器方法：输出向量序列

pad_sequences进行padding

具体示例和代码分析

分词器分词和向量化

主要的类是Tokenizer，用到其中的一些方法将文本转换为序列。需要注意的是这个类的一些默认方法
- filters：默认会过滤一些标点符号，标点符号和单词之间没有空格也没关系。内部代码是先把标点符号替换为空格，然后进行分词，所以的这样的："eat!Some"也可以正确识别
- lower=True：默认会转为小写
- split=" "：默认是空格
这些方法都已经实现，所以在可以不用自己写，直接设置参数就行。另外两个参数：
- num_words：处理的最大单词数量。
- char_level: 默认False，如果是True，返回字符向量化结果（char embedding的时候可以用到）
还有就是注意必须先进行fit_on_texts方法，然后进行texts_to_sequences。fit_on_texts后有两个有用的输出：
- word_counts：词频统计结果
- word_index：词和index的对应关系
texts_to_sequences输出的是根据对应关系输出的向量序列，是不定长的，跟句子的长度有关系。
from keras.preprocessing.text import Tokenizer text1='Some ThING to eat !' text2='some thing to drink .' texts=[text1,text2] print(texts) #out:['Some ThING to eat !', 'some thing to drink .'] tokenizer = Tokenizer(num_words=100) #num_words:None或整数,处理的最大单词数量。少于此数的单词丢掉 tokenizer.fit_on_texts(texts) print( tokenizer.word_counts) #out:OrderedDict([('some', 2), ('thing', 2), ('to', 2), ('eat', 1), ('drink', 1)]) print( tokenizer.word_index) #out:{'some': 1, 'thing': 2, 'to': 3, 'eat': 4, 'drink': 5} sequences = tokenizer.texts_to_sequences(texts) word_index = tokenizer.word_index print(sequences) #out:[[1, 2, 3, 4], [1, 2, 3, 5]] 转换为序列，注意这里句子等长，所以输出一样，但是不等长句子输出的长度是不一样的 print('Found %s unique tokens.' % len(word_index)) #out:Found 5 unique tokens.
填充至等长

pad_sequences,对上面生成的不定长序列进行补全。可以手动设定每个句子的最大长度参数，大于这个长度截断，小于这个长度填充。注意：默认补全和截断都是在句子前面进行填充和截断。这里是用0进行填充，也就是空格，这也是为什么上面序列index起始是1的原因。
#接上面的代码 SEQ_LEN = 10 data = pad_sequences(sequences, maxlen=SEQ_LEN) print(data) #out:[[0 0 0 0 0 0 1 2 3 4] # [0 0 0 0 0 0 1 2 3 5]]
来自 https://zhuanlan.zhihu.com/p/55412623
查看全文

相关阅读:
这是阿里技术专家对 SRE 和稳定性保障的理解
 阿里四年技术 TL 的得失总结：如何做好技术 Team Leader
深度 | 阿里云蒋江伟：什么是真正的云原生？
亲历者说 | 完整记录一年多考拉海购的云原生之路
 Seata RPC 模块的重构之路
 对容器镜像的思考和讨论
 20 行代码：Serverless 架构下用 Python 轻松搞定图像分类和预测
 怎么提升写代码的能力
 云原生 DevOps 的 5 步升级路径
 dubbo-go 白话文 | 从零搭建 dubbogo 和 dubbo 的简单用例

原文地址：https://www.cnblogs.com/yoyowin/p/13454077.html

Keras文本预处理详解

具体示例和代码分析

分词器分词和向量化

填充至等长