- 基于生成的chatbot系统,使用的是经典Seq2Seq的结构:
data:image/s3,"s3://crabby-images/9b399/9b39949df61e344f2c1b24a208b7efd920c52d6c" alt=""
- 数据集:
数据集默认存储在项目中的data文件夹中,
data:image/s3,"s3://crabby-images/68da9/68da9aba20bfe3a5f6dfe1be8c1e4e12f0c4d1ad" alt=""
data:image/s3,"s3://crabby-images/5c18a/5c18a0ed4ff990e4eefe4a6a3e20d2dab2186e5a" alt=""
clone项目的的时候,Cornell Movie Dialog 是一起下载
其他的数据集:OpenSubtitles,Supreme Court Conversation Data,Ubuntu Dialogue Corpus 需要额外下载,使用时通过参数--corpus **指定
自定义的数据集,可根据既定的模式使用 https://github.com/Conchylicultor/DeepQA/tree/master/data/lightweight ,使用时通过参数--corpus lightweight --datasetTag <name>指定
- 注:若需要使用中文数据集,只需修改testdata.py中的断词的地方,引入结巴即可
将tokens = nltk.word_tokenize(sentencesToken[i]) 换成tokens=list(jieba.cut(sentencesToken[i]))
data:image/s3,"s3://crabby-images/34133/34133c997f01aab0b3a34f64568e136e9670df81" alt=""
- 为了加速训练,可使用提前训练好的word wmbeddings
- 模型训练
直接运行main函数
读取数据: textdata.py将文本按照出现的次序转换成数字编码,同时生成字典
data:image/s3,"s3://crabby-images/08b72/08b7283f5c3f567169d6aec62e4bed19cfa94b0e" alt=""
处理好的数据存储在self.trainingSample中,data:image/s3,"s3://crabby-images/45d0f/45d0f63d41e354cdf11a611cad6e20127e000c2a" alt=""
data:image/s3,"s3://crabby-images/45d0f/45d0f63d41e354cdf11a611cad6e20127e000c2a" alt=""
字典:
data:image/s3,"s3://crabby-images/9bd3b/9bd3b90345995452147acc78ea13a72bd70bcc5a" alt=""
构建模型:
主要的逻辑实现在model.py中,通过TensorFlow自带embedding_rnn_seq2seq函数实现
data:image/s3,"s3://crabby-images/868a2/868a2f1b9c1c1373bb6d2f8774026a4517dd7e39" alt=""
构建完成后开始训练
- 测试模型
通过参数modelTag指定model,test指定交互方式
data:image/s3,"s3://crabby-images/3ad24/3ad2498771c34d6e1c65d03eb0b606d0c29d3868" alt=""
decoder ouptut 输出 单句最大词数*1*数据集单词数 的3维向量,每个数值表示所对应单词的概率,取最大的作为答案,即可得到若干个单词作为答案