zoukankan      html  css  js  c++  java
  • 多模态智能信息检索技术设计及分类模型设计

    一、多模态智能信息检索技术设计
    1.设计检索的框架流程,设计检索评估方法
    完成的任务:用户搜索“苹果”,在限定性语境中,如何做到用户是需要找“苹果手机”,而不是水果“苹果”
    系统输入:一个关键词
    输出:同输入词相关的若干词汇(可能是用户需要的敏感词汇)
    预计出现的问题:
    1)输出相似或相关词汇由于模型的误判并不是用户需要的,精度过低这种情况肯定存在,一定要分析产生的原因,在实际情况中如何解决
    2)待搜索数据源是否固定。
    a.数据固定在本地,可以构建本地关键词数据特征中心(或者构建三元组数据库),在检索是可以用spark streaming等大数据处理方式解决实时性问题
    b.待检测数据随任务变化而变化,文本特征需要在搜索时构建,如何解决实时检索效率
    3)返回的结果是否具有联想能力,如何提升联想能力,比如输入“苹果”,输出“苹果公司”、“乔布斯”、“上市公司”、“跨国企业”、“IPhone”等
    技术方法:
    1)文本转化为词汇单元:分词技术,利用现有模块能初步实现分词,如果要求实时处理数据,则效果一般,根据以往经验来看性能不会有多快
    实体识别技术,能够很好地识别出实体并可转化为关键词,精度较高效果较好,但实时处理性能非常慢
    构建关键词词库,缩小数据范围,结合业务领域收集聚焦关键词,而不是通用领域数据(如公安案件领域、安全领域等),是的词库不会那么大,应用也成为可能
    可以用NER技术离线处理领域数据,可以通过人工挑选或自动分类方法,扩充关键词词库
    最终构建的关键词词库(不一定只是关键词)也可能会很大,如果影响单机存储,还需要考虑较优的序列化技术,占用空间不至于过大(如转化为二进制),也要能快速IO操作,这应该是影响性能操作的第一个部分
    2)词表征技术:让上部分构建的词汇含有语义信息,就必须利用词嵌入表征技术,如word2vec,能够很好的反映词与词之间的关系或者是相关性,通过夹角余弦、欧氏距离等指标衡量
    知识图谱技术也能够通过构建SPO形成语义信息,通过语义网络表征词于词之间的关系,对一个实体的一跳或多跳查询方式获得目标实体,但实际使用起来难度较大,RQL的查询方式可能并不适合本任务(S,P,?)
    同时,KG的弊端也逐渐显现,描述客观事物的能力同现今的BERT、GPT等超级模型有很大差距,劲头有减弱趋势。但是在限定性领域的数据表征还是可以使用的,准确率还是很高的
    鉴于此,采用词嵌入表征方式,初步的步骤:
    a.在通用领域或者限定性领域预训练出一个词向量数据集
    对通用域和者限定域得出的词向量进行评估,结合现有的评估方法确定哪一个更适用于实际任务解决问题
    根据以往经验来看,通用域即现有的公开词向量数据更平滑,表征能力也有优势,但存在的问题是维度已经固定,实际任务中会由于过长并不适用,而且多数情况下不包含实际任务中的关键词,需要想办法改进
    限定性即根据预料自己训练的词向量,关键词及维度可控,但存在模型过拟合及调参不充分导致得到的词向量有偏,在构建的时候需要严格把控
    最后,希望是能够使用一种方法兼顾两者的优势,或者使用公开集数据全力指导限定域词向量的构建
    b.在词向量已获得的情况下,完成关键词表征,形成{关键词:词向量}的映射
    词向量此表长度远远大于词库长度
    针对词向量中的词相似度查询耗时较长,而且大多数词是通用词,并不是重点分析和需要的,也就没有必要进行检索和计算,构建词表的时候要考虑充分
    关键词库或者说白名单库就显得非常重要了,此库直接影响检索返回的效果
    c.数据固化存储
    3)匹配技术:关键词匹配上一般包括精确匹配、模糊匹配、短语匹配,现在更多的是一种语义匹配
    query:词汇-->word2vec(映射),转换成数值
    search engine: 依据词汇相似度匹配、排序
    a.遍历待分析数据,构建词汇单元(分词或者查找词库等方式,怎么快速怎么来),将词汇单元映射到向量
    b.将query向量和已构建的词汇单元向量一一相似度匹配
    c.匹配度算法选取
    欧式距离:针对向量计算出的结果数值无法,不适用
    夹角余弦:有方向性,可以归一化到[-1,1],可以用。此时要分析性能,针对文档的检索效率怎样,实际任务是否受影响
    ohter:采用哈希分桶策略,最大的有点事效率非常高,原理:高相似性的数据更容易碰撞到一个桶里
    具体的实施方法有待验证
    如果是单机部署,也可以使用现有的开源搜索模块配合夹角余弦相似度匹配完成任务,毕竟有些查询引擎优化的都不错
    d.排序操作
    response: 词汇1,词汇2,...,词汇N
    4)检索结果评估:检索结果和用户查询的相关度,或者理解为用户查询的满意度如何
    p-r曲线:兼顾精度和召回
    在返回的N个结果中做评估计算
    还得根据实际情况设定

    二、广告在群聊文本内的检测方法研究
    1)单纯检测文本中的广告和非广告,采用一个二分类算法就能实现,如果是发文章或者专利,需要在算法和模型上有一定的创新性,还得要蹭一下当前的热度
    2)主线思路就是想在前人基础上(bert)根据实际任务中加入改进方法,如:如何在原有模型上引入知识,一个很好的例子就是ERNIE,这样的得重新预训练,实际过程中压根不可能完成,放弃
    那就在fine-tune在encoder输出层不直接分类,而是引入一个或多个结构,提高最终的分类性能,这是一个可行的办法
    同时,本次参赛模型设计我是主张采用bert + other tricks(MT, AD, KD)方式去做,毕竟大力出奇迹,新技术用不用的好就是另外一回事了
    今天快速浏览了一篇文章《A Simple but Effective Method to Incorporate Multi-turn Context with BERT for Conversational Machine Comprehension》,对我本次广告模型的设计和这次比赛都有借鉴意义
    这篇文章是机器阅读理解,通过query和context history,给出一个正确答案和类型,这个答案是在context存在的,也就是做截取span of garagraph,重要的操作:
    a.在模型结构上,对bert输出的features做concate形成全局特征G
    b.使用BiGRU对G又做了一次特征抽取得到M1,G + M1 预测span开始索引
    c.同样用BiGRU对M1又做一次得到M2,G + M2 预测span结束索引,同时预测答案类型
    d.loss: 索引部分极大似然估计,类别是互熵损失;推理的时候预测(s, e)用的动态规划,这块的细节还不太明白
    通过以上的例子,后期的结构设计就清晰多了

  • 相关阅读:
    第一节 Spring的环境搭建
    002. 配置环境变量
    001. 巧妇难为无米之炊之安装环境
    第七节 认识SpringMVC中的表单标签
    [六字真言]6.吽.SpringMVC中上传大小异常填坑
    [六字真言]4.叭.SpringMVC异常痛苦
    [六字真言]5.咪.功力不足,学习前端JavaScript异常
    [六字真言]3.呢.异常的谎言,你要相信多少次?
    [六字真言]2.嘛.异常定制和通用.md
    vim基本技巧
  • 原文地址:https://www.cnblogs.com/demo-deng/p/12308199.html
Copyright © 2011-2022 走看看