用到了 copy-net 和 pointer-network,对OOV 和低频词比较有用
头条:transformer 在encoder 加了 NER 和 POS,效果也比较好
训练样本:sogou 3200万线上语料 + 业务语料