zoukankan      html  css  js  c++  java
  • 【工程处理技巧一篇】基于半规则数据的命名实体消歧识别【未完】

    作者:finallyly 出处:博客园(转载请注明作者和出处)

        看到这篇文章的标题,您一定会以为此篇博客要讲解一个何等高深的算法。其实不然,本篇博客旨在分享笔者在处理那些繁杂、冗踏、低端甚至于极其TMDTMD无聊的体力工作中的一点见解。

       先说一下工作材料和需求和难点。

    工作材料:20W以上冗余的数据库。字段信息是(作者和工作单位)。

    工作需求:区分哪些同名的作者是一个人,哪些同名的作者不是一个人。

    入手思路:从工作单位字段来区分。如果工作单位字段里的内容完全相同,那么就为同一个人。

    工作难点:工作单位字段写的不够规范,比如有的单位字符串只写到大学如“沈阳大学”,有的单位字符串却具体到了院系甚至于研究所。 即便是描述详细的单位字符串写法细节上也有很多区别。比如“东北大学,信息与通信工程学院”,“东北大学信息与通信工程学院”,“东北大学 信息与通信工程学院”,“东北大学信通院",“中国科学与技术大学计算机系”,“中国科大计算机系”,“中国科技大学计算机技术系”。。。。。。等等。

      众所周知,计算机所擅长的工作是“匹配”,不会像人那样具备理解自然语言,自动消歧的能力。即便是人工智能,也是在某种程度上依赖于知识库和知识库的“数据结构”,然后利用某种高效的搜索算法去匹配答案。

  • 相关阅读:
    spring前两天
    代理模式
    学习spring第三天
    Spring集成MyBatis配置文件
    学习spring第二天
    学习spring第一天
    Bind关闭递归查询
    织梦DedeCMS v5.7 实现导航条下拉菜单
    Debian下修改系统时间的方式
    js禁止页面复制功能禁用页面右键菜单示例代码
  • 原文地址:https://www.cnblogs.com/finallyliuyu/p/1970310.html
Copyright © 2011-2022 走看看