zoukankan      html  css  js  c++  java
  • 【工程处理技巧一篇】基于半规则数据的命名实体消歧识别【未完】

    作者:finallyly 出处:博客园(转载请注明作者和出处)

        看到这篇文章的标题,您一定会以为此篇博客要讲解一个何等高深的算法。其实不然,本篇博客旨在分享笔者在处理那些繁杂、冗踏、低端甚至于极其TMDTMD无聊的体力工作中的一点见解。

       先说一下工作材料和需求和难点。

    工作材料:20W以上冗余的数据库。字段信息是(作者和工作单位)。

    工作需求:区分哪些同名的作者是一个人,哪些同名的作者不是一个人。

    入手思路:从工作单位字段来区分。如果工作单位字段里的内容完全相同,那么就为同一个人。

    工作难点:工作单位字段写的不够规范,比如有的单位字符串只写到大学如“沈阳大学”,有的单位字符串却具体到了院系甚至于研究所。 即便是描述详细的单位字符串写法细节上也有很多区别。比如“东北大学,信息与通信工程学院”,“东北大学信息与通信工程学院”,“东北大学 信息与通信工程学院”,“东北大学信通院",“中国科学与技术大学计算机系”,“中国科大计算机系”,“中国科技大学计算机技术系”。。。。。。等等。

      众所周知,计算机所擅长的工作是“匹配”,不会像人那样具备理解自然语言,自动消歧的能力。即便是人工智能,也是在某种程度上依赖于知识库和知识库的“数据结构”,然后利用某种高效的搜索算法去匹配答案。

  • 相关阅读:
    poj 1035 字符串匹配
    拓扑排序的小总结
    POJ1018
    POJ1328详细题解
    POJ1159题解报告
    POJ1088 (滑雪)
    树状树组区间修改,单点修改模板
    spfa模板
    树状树组离散化求逆序对模板
    POJ3723(最小生成树,负权)
  • 原文地址:https://www.cnblogs.com/finallyliuyu/p/1970310.html
Copyright © 2011-2022 走看看