Keras -- 词向量 CNN

Keras -- 词向量 CNN

词向量：

GloVe词向量：2014年的英文维基百科上训练。400k词每个词100维向量表示。

数据集：

20种新闻文本数据。

步骤：

1.把新闻样本转化为词索引序列。

词索引：每个词依次分配一个ID，只保留最常见的词。

2.生成一个词向量矩阵。第i列表示词索引为i的词的词向量。

3.将词向量矩阵载入Keras Embedding层。设置该层的权重不可在训练（把数据转成系数向量）https://www.zhihu.com/question/344209738

4.Kearas Embedding层之后连接一个1D的卷积层。用softmax全连接输出新闻类别。（特征抽取）https://www.jianshu.com/p/88bb976ccbd9

代码见：

https://github.com/keras-team/keras/blob/master/examples/pretrained_word_embeddings.py

CNN讲解---------------李宏毅:

举例：判断一张图是否有鸟嘴（pattern）

1、只需要选取这张图的一小部分来判断，从而减少参数。 (Convolution)

2、同样的pattern可能分布在不同的位置，但处理方法都相同 (Convolution)

3、缩小图片并不会影响物体的整体形状。 (Max-pooling)

Filter 是一个矩阵，他们的值是神经网络需要学的参数。

之后我们在图片上选取一个一个窗口，让他们与Filter做内积，直到所有窗口选完，最后又得到一个矩阵叫做Feature Map

把Feature Map（输出层）的每一个位置的值对应于窗口（输入层）。（其实是一个全连接层）

查看全文

相关阅读:
python学习笔记 day44 mysql练习题（三）
python学习笔记 day44 mysql 练习题（二）
python学习笔记 day44 mysql练习题（一）
python学习笔记 day44 数据库三范式
 python学习笔记 day44 表与表之间的关系
 西北大学集训队选拔赛（重现赛）
#Leetcode# 196. Delete Duplicate Emails
#Leetcode# 596. Classes More Than 5 Students
#Leetcode# 176. Second Highest Salary
#Leetcode# 620. Not Boring Movies

原文地址：https://www.cnblogs.com/liuguangshou123/p/13752274.html