zoukankan      html  css  js  c++  java
  • 百度大脑UNIT3.0解读之对话式文档问答——上传文档获取对话能力

    在日常生活中,用户会经常碰到很多复杂的规章制度、规则条款。比如:乘坐飞机时,能不能带宠物上飞机,3岁小朋友是否需要买票等。在工作中,也会面对公司多样的规定制度和报销政策。比如:商业保险理赔需要什么材料,工作几年可以排队办理?这些情况下,经常需要各种查询确定或者检索规章制度文件或说明,才能回复并解决用户的疑问。基于这类常见的业务场景,百度大脑UNIT3.0正式推出了对话式文档问答能力,更快速、低成本的搭建智能对话系统。

    对话式文档问答是UNIT提供的一项创新技术,利用这项创新技术,开发者无需梳理意图、词槽,无需进行问题和答案的整理,只需准备文本格式的业务文档,通过平台上传,即可一键获取基于文档的对话技能。无需智能对话技术基础也可以利用该技术,秒变AI达人。

    【对话式文档问答技术解读】

    对话式文档问答技能,可以对传统需要人工抽取FAQ或梳理意图的业务文档进行自动学习,通过搜索与语义理解技术,构建了用户输入的问题与业务文档之间的桥梁,使得用户的问题可以由技能自动找到文档中的对应答案片段,使用端到端的多文档阅读理解模型V-NET和自然语言生成技术,技能得以返回更为精准的答案。整个问答技能的构建对开发者来说没有任何技术门槛,且对话式文档问答技能具有自主学习能力,可持续优化,大大提高问答系统的开发人效。

    【多粒度语料分析技术】

    开发者在上传文档后,可以在平台上进行模型训练,整个训练的过程需要经过以下几部分处理:

    1.基础处理:比如编码处理,冗余字符处理,切分完整语义片段,进行词法分析等,让机器人对用户上传的文档有基础了解;

    2.获取文档关键信息并完成倒排索引:此过程采用了TF-IDF及TextRank等多种算法综合片段的重要性,并进行打分;

    3.构建基于词向量的KNN分类器:基于大规模语料,使用skip-gram模型,训练并得到词向量,并完成构建KNN分类器。

    【基于篇章理解的答案定位技术】

    训练结束后,开发者就可以直接测试使用了,这个过程如上图所示:

    1.首先是对用户的query进行分析及提取关键信息;

    2.此后对关键信息进行拓展,构建query中关键信息与文档中关键信息之间的桥梁;

    3.在对query有了比较深入的分析后,实时在系统中寻找与问题最相关的候选文档及候选答案,要进行基于各种技术的排序处理;

    4.排序后,会生成精准的答复,这里面要拆分单答案及多答案等处理算法及逻辑。

    【如何体验对话式文档问答】

    开发者需要登录UNIT平台,点击“创新技术”区,进入如下界面,点击“对话式文档问答“即可申请体验。

    创新技术区是UNIT将创新技术在业务场景下落地探索的窗口,目前包含对话式文档问答和语义解析离线使用两种创新技术,开发者可以通过在线申请并体验这些新技术,同时更多创新技术敬请期待。

    【三步快速创建对话式文档问答对话技能】

    点击“对话式文档问答”,进入对话式文档问答的主界面,新用户点击“新建技能”,填写技能信息,即可完成技能的创建。技能创建完成后会出现在“对话式文档问答技能”列表和“我的技能”列表中。创建技能后,只需三步便可获得基于业务文档的对话能力:

    第一步:上传业务文档

    当前版本的对话式文档问答仅支持两类纯文本文档的上传上传,一类是普通文本文档,一类是梳理过的FAQ文档,如下图所示。

    Tips:

    1.每种文档类型都可以通过下载示例文档进行内容的替换后再上传;

    2.请选择恰当的文档类型后再上传对应的文档,否则会影响模型的效果;

    3.每次只能上传一个文档,多个业务文档请分批次上传;

    4.FAQ类型的文档请务必按照示例文档的格式整理后再上传;

    5.当前版本下每个技能可支持的文档大小的上限是10M,文档数量的上限是99个。

    第二步:训练模型

    文档上传完成后开始模型训练。训练完成后“训练”按钮会变为“重新训练”,点击“测试”进入测试界面。

    Tips:

    1.训练过程中不可对文档进行任何编辑,包括删除、上传、下载等;

    2.目前的技能是全文档训练,即该技能下的所有文档都会参与模型的训练。

    第三步:测试技能

    进入“测试”界面可以体验对话。对话有两种形态:一种是直接对话,一种是回复中提供选项,用户可以进行选择,或者直接输入更多信息进行交互,如下图。

    【调优模式如何使用】

    1.调优模式下会看到一个query的多个候选项答案,并且可以展开每个候选项查看完整的选项内容

    2.查看并确定正确选项后,点击单选按钮进行选择,并点击确认后就会保存答案,再次询问该query时,会呈现针对这个问题的答案,如下图:

    3.如果对之前选择的答案不满意,可以点击“删除并重新选择”按钮,进行重新选择;点击“删除并重新选择”按钮后,会呈现选择前的选项状态。

    4.调优完成后,点击“生效”按钮,调优结果会在模型中生效;之后即可在“测试模式”下体验调优后的对话效果了;如果调优后没有点击“生效”就要离开调优界面,会弹出二次确认,点击“生效”后,调优结果就会生效到模型中。

    如有任何关于对话式文档问答的问题,可以请发邮件至unit-innovation@baidu.com与我们沟通交流。

  • 相关阅读:
    131. Palindrome Partitioning
    130. Surrounded Regions
    129. Sum Root to Leaf Numbers
    128. Longest Consecutive Sequence
    125. Valid Palindrome
    124. Binary Tree Maximum Path Sum
    122. Best Time to Buy and Sell Stock II
    121. Best Time to Buy and Sell Stock
    120. Triangle
    119. Pascal's Triangle II
  • 原文地址:https://www.cnblogs.com/AIBOOM/p/11354419.html
Copyright © 2011-2022 走看看