1、机器阅读理解(Machine Reading Comprehension,即MRC)是指通过阅读从文本中抽取信息并理解意义的过程。
2、MRC四大任务:完形填空,多项选择,答案抽取,自由回答
-
完形填空:原文中除去若干关键词,需要模型填入正确的单词或短语
-
多项选择:模型需要从给定的若干选项中选出正确答案
-
答案抽取:回答限定是文章的一个子句,需要模型在文章中标注正确答案的起始和终止位置。
-
自由回答:不限定模式生成答案的形式,允许模型自由生成回答数据
MRC方法
1、特征+传统机器学习
2、BERT以前:各种神奇的QA架构
3、BERT以后:预训练+微调+trick
MRC总体架构
1、Embedding:处理方法有one-hot,word2vec,elmo,glove,bert
2、Feature extraction:处理方法包括CNN,RNN,Transformer
3、Context-query interaction:使用注意力机制
4、answer prediction:包括word predicton(完形填空); option prediction(多项选择); span extractor(答案抽取); answer generator(答案生成 或者 自由回答)
评测指标
1、Accuracy:一共m个问题答对了n个(n/m)
2、F1: 2*P*R / (P+R)
3、Rouge-L:
R= 最长公共子序列 / m(m表示标准答案单词个数)
P= 最长公共子序列 / n (n表示模型答案单词个数)
F=(1 + belta)^2 R*P/ (R + belta^2 * P)
4、BLEU :