参考csdn
1.句子分割 text_to_word_sequence
keras.preprocessing.text.text_to_word_sequence(text, filters='!"#$%&()*+,-./:;<=>?@[]^_`{|}~
', lower=True, split=" ")
本函数将一个句子拆分成单词构成的列表。使用filters参数中定义的标点符号和split参数中定义的分隔符作为分割句子的标准。
text_to_word_sequence,将文本转换为一个字符序列,即将文本转换为序列(即单词在字典中的下标构成的列表,从1算起)。
参数:
text:字符串,待处理的文本
filters:需要滤除的字符的列表或连接形成的字符串,例如标点符号。
默认值为 '!"#$%&()*+,-./:;<=>?@[]^_`{|}~
',包含标点符号,制表符和换行符等。
lower:布尔值,是否将序列设为小写形式
split:字符串,单词的分隔符,如空格
返回值:字符串列表
>>> import keras
>>> text="我爱你!!你爱我么??"
>>> keras.preprocessing.text.text_to_word_sequence(text, filters='!"#$%&()*+,-./:;<=>?@[]^_`{|}~
', lower=True, split=" ")
['我爱你', '你爱我么']
>>> text="好好学习,天天向上!!"
>>> keras.preprocessing.text.text_to_word_sequence(text, filters='!"#$%&()*+,-./:;<=>?@[]^_`{|}~
', lower=True, split=" ")
['好好学习', '天天向上']
#使用了中文形式的标点符号,因此filters参数中也应加上中文形式的标点符号,才能正常分割句子
>>> text="好好学习,天天向上!!"
>>> keras.preprocessing.text.text_to_word_sequence(text, filters='!"#$%&()*+,-./:;<=>?@[]^_`{|}~
,!', lower=True, split=" ")
['好好学习', '天天向上']
2.one-hot编码
keras.preprocessing.text.one_hot(text, n, filters='!"#$%&()*+,-./:;<=>?@[]^_`{|}~
', lower=True, split=" ")
本函数将一段文本编码为one-hot形式的码,即仅记录词在词典中的下标。
从定义上,当字典长为n时,每个单词应形成一个长为n的向量,其中仅有单词本身在字典中下标的位置为1,其余均为0,这称为one-hot。
为了方便起见,函数在这里仅把“1”的位置,即字典中词的下标记录下来。
这个函数表示把一个string的文本编码成一个index的list,这里的index指的是在字典中的index。字典的规模可以制定,就是n。
使用filters参数中定义的标点符号和split参数中定义的分隔符作为分割句子的标准。
one_hot,对字符串序列进行独热编码。所谓的独热编码就是在整个文本中,根据字符出现的次数进行排序,以序号作为字符的索引构成词频字典,
在一个字典长度的全零序列中将序号对应的元素置1来表示序号的编码。比如“我”的序号是5,全字典长度为10,
那么“我”的独热编码为[0,0,0,0,1,0,0,0,0,0]。
参数:
text:字符串,待处理的文本
n:整数,字典长度
filters:需要滤除的字符的列表或连接形成的字符串,例如标点符号。
默认值为 '!"#$%&()*+,-./:;<=>?@[]^_`{|}~
',包含标点符号,制表符和换行符等。
lower:布尔值,是否将序列设为小写形式
split:字符串,单词的分隔符,如空格
返回值:整数列表,每个整数是[1,n]之间的值,代表一个单词(不保证唯一性,即如果词典长度不够,不同的单词可能会被编为同一个码)。
>>> import keras
#使用filters参数中定义的标点符号和split参数中定义的分隔符把句子进行分割之后,n为字典长度,每个被分割出来的单词先是被one-hot化,
#相同的单词具有相同的one-hot码,其中单词会被放到字典中,单词在字典中的索引index作为one-hot向量中值为1的索引index,
#函数返回值便是这个单词在one-hot向量中值为1的索引index,也同样为单词在字典中的索引index,最终封装为列表返回全部单词的索引。
>>> text='Near is a good name, you should always be near to someone to save'
>>> keras.preprocessing.text.one_hot(text, 20, filters='!"#$%&()*+,-./:;<=>?@[]^_`{|}~
', lower=True, split=" ")
[19, 12, 8, 15, 1, 4, 9, 14, 13, 19, 15, 3, 15, 12]
3.特征哈希hashing_trick
keras.preprocessing.text.hashing_trick(text, n, hash_function=None, filters='!"#$%&()*+,-./:;<=>?@[]^_`{|}~
', lower=True, split=' ')
将文本转换为固定大小的哈希空间中的索引序列。
hashing_trick,对文本或者字符串进行哈希计算,将计算所得的哈希值作为存储该文本或者字符串的索引。
参数
text:字符串,待处理的文本
n: 哈希空间的维度
hash_function: 默认为 python hash 函数, 可以是 'md5' 或任何接受输入字符串, 并返回 int 的函数。
注意 hash 不是一个稳定的哈希函数, 因此在不同执行环境下会产生不同的结果, 作为对比, 'md5' 是一个稳定的哈希函数。
filters:需要滤除的字符的列表或连接形成的字符串,例如标点符号。
默认值为 '!"#$%&()*+,-./:;<=>?@[]^_`{|}~
',包含标点符号,制表符和换行符等。
lower:布尔值,是否将序列设为小写形式
split:字符串,单词的分隔符,如空格
返回值:整数列表
>>> import keras
>>> text='Near is a good name, you should always be near to someone to save'
>>> keras.preprocessing.text.hashing_trick(text, 20, hash_function='md5', filters='!"#$%&()*+,-./:;<=>?@[]^_`{|}~
', lower=True, split=' ')
[5, 19, 14, 15, 15, 3, 13, 12, 7, 5, 6, 16, 6, 11]
4.填充序列pad_sequences
keras.preprocessing.sequence.pad_sequences(sequences, maxlen=None, dtype='int32', padding='pre', truncating='pre', value=0.)
将长为nb_samples的序列(标量序列)转化为形如(nb_samples,nb_timesteps)2D numpy array。
如果提供了参数maxlen,nb_timesteps=maxlen,否则其值为最长序列的长度。其他短于该长度的序列都会在后部填充0以达到该长度。
长于nb_timesteps的序列将会被截断,以使其匹配目标长度。padding和截断发生的位置分别取决于padding和truncating.
参数
sequences:浮点数或整数构成的两层嵌套列表
maxlen:None或整数,为序列的最大长度。大于此长度的序列将被截短,小于此长度的序列将在后部填0.
dtype:返回的numpy array的数据类型
padding:‘pre’或‘post’,确定当需要补0时,在序列的起始还是结尾补
truncating:‘pre’或‘post’,确定当需要截断序列时,从起始还是结尾截断
value:浮点数,此值将在填充时代替默认的填充值0
返回值
返回形如(nb_samples,nb_timesteps)的2D张量
5.tensorflow中的分词器Tokenizer
enc_vocab_size = 20000
tokenizer = tf.keras.preprocessing.text.Tokenizer(num_words=enc_vocab_size, oov_token=3)
tokenizer.fit_on_texts(texts)
tensor = tokenizer.texts_to_sequences(texts)
Tokenizer,一个将文本进行数字符号化的方法类,在进行神经网络训练时需要输入的数据是数值,因此需要将文本字符转换为可进行数学计算的数值。
在这个方法类中提供了fit_on_sequences、fit_on_texts、get_config、sequences_to_matrix、sequences_to_texts和sequences_to_texts_generator等方法。
在使用Tokenizer时,可以配置如下参数。
• num_words:配置符号化的最大数量。
• filters:配置需要过滤的文本符号,比如逗号、中括号等。
• lower:配置是否需要将大写全部转换为小写。这个配置是相对于英文来说的,中文不存在大小写的问题。
• split:配置进行分割的分隔符。
• char_level:配置字符串的级别。如果配置为True,那么每个字符都会作为一个token。
• oov_token:配置不在字典中的字符的替换数字,一般使用“3”这个数字来代替在字典中找不到的字符。
6.keras中的分词器Tokenizer
keras.preprocessing.text.Tokenizer(num_words=None, filters='!"#$%&()*+,-./:;<=>?@[]^_`{|}~
', lower=True, split=" ", char_level=False)
Tokenizer是一个用于向量化文本,或将文本转换为序列(即单词在字典中的下标构成的列表,从1算起)的类。
1.参数:
num_words: None或整数,处理的最大单词数量。若被设置为整数,则分词器将被限制为待处理数据集中最常见的num_words个单词
filters:需要滤除的字符的列表或连接形成的字符串,例如标点符号。
默认值为 '!"#$%&()*+,-./:;<=>?@[]^_`{|}~
',包含标点符号,制表符和换行符等。
lower:布尔值,是否将序列设为小写形式
split:字符串,单词的分隔符,如空格
char_level: 如果为 True, 每个字符将被视为一个标记
2.类方法
fit_on_texts(texts)
texts:要用以训练的文本列表
texts_to_sequences(texts)
texts:待转为序列的文本列表
返回值:序列的列表,列表中每个序列对应于一段输入文本
texts_to_sequences_generator(texts)
本函数是texts_to_sequences的生成器函数版
texts:待转为序列的文本列表
返回值:每次调用返回对应于一段输入文本的序列
texts_to_matrix(texts, mode):
texts:待向量化的文本列表
mode:‘binary’,‘count’,‘tfidf’,‘freq’之一,默认为‘binary’
返回值:形如(len(texts), nb_words)的numpy array
fit_on_sequences(sequences):
sequences:要用以训练的序列列表
sequences_to_matrix(sequences):
sequences:待向量化的序列列表
mode:‘binary’,‘count’,‘tfidf’,‘freq’之一,默认为‘binary’
返回值:形如(len(sequences), nb_words)的numpy array
3.属性
Tokenizer对象.word_counts: 获取字典{单词:单词出现次数},将单词(字符串)映射为它们在训练期间出现的次数。仅在调用fit_on_texts之后设置。
Tokenizer对象.word_docs: 获取字典{单词:单词出现次数},将单词(字符串)映射为它们在训练期间所出现的文档或文本的数量。仅在调用fit_on_texts之后设置。
Tokenizer对象.word_index: 获取字典{单词:单词在字典中的索引值},将单词(字符串)映射为它们的排名或者索引。仅在调用fit_on_texts之后设置。
Tokenizer对象.index_word[index]: 获取单词(字符串),根据传入单词所在字典中的索引值来获取该单词。
Tokenizer对象.word_index[word]: 获取单词在字典中的索引值,根据传入单词,获取单词所在字典中的索引值。
Tokenizer对象.document_count: 获取整数。分词器被训练的文档(文本或者序列)数量。仅在调用fit_on_texts或fit_on_sequences之后设置。
>>> import keras
>>> tokenizer = keras.preprocessing.text.Tokenizer(num_words=10, filters='!"#$%&()*+,-./:;<=>?@[]^_`{|}~
', lower=True, split=" ", char_level=False)
>>> text = ["今天 北京 下雨 了", "我 今天 加班"]
>>> tokenizer.fit_on_texts(text)
>>> tokenizer.word_counts
OrderedDict([('今天', 2), ('北京', 1), ('下雨', 1), ('了', 1), ('我', 1), ('加班', 1)])
>>> tokenizer.word_docs
defaultdict(<class 'int'>, {'下雨': 1, '了': 1, '今天': 2, '北京': 1, '加班': 1, '我': 1})
#word_index返回每个被分割的单词在字典中的索引值,从1算起。
>>> tokenizer.word_index
{'今天': 1, '北京': 2, '下雨': 3, '了': 4, '我': 5, '加班': 6}
>>> tokenizer.document_count
2
#texts_to_sequences返回每个被分割的单词在字典中的索引值,从1算起。
#每个句子对应一个列表,每个列表中元素值为该句子中的单词在字典中的索引值。
>>> tokenizer.texts_to_sequences(text)
[[1, 2, 3, 4], [5, 1, 6]]
#每个句子所转换为列表,如果列表中单词所对应的索引值数量不满maxlen,则默认补0,可指定padding='post'在后面做填充
>>> keras.preprocessing.sequence.pad_sequences(tokenizer.texts_to_sequences(text), maxlen=10, padding='post')
array([[1, 2, 3, 4, 0, 0, 0, 0, 0, 0],
[5, 1, 6, 0, 0, 0, 0, 0, 0, 0]])
真的知识不容许你太快了~还是扎实一些,一步一个脚印吧~