任务三非人物分析判断

zoukankan html css js c++ java

任务三非人物分析判断
任务三非人物分析判断

标签（空格分隔）：一找

任务描述

目前非人物以人工标注的方式处理
希望修改为：训练人物类数据，判断非人物情况。
数据库已经存储人物类的数据有：
1.基本属性
2.摘要
3.目录结构
4.标签
5.人物关系

个人的补充：做这个任务主要是为了优化NER（命名实体识别）的词库，如果不进行优化，会将很多非人物的姓名丢进去训练NER模型，导致最终训练出来的模型会将许多非人物识别为人物。

实现方案
1. 写了一堆的规则，比如出生年月、国籍、民族等等来判断
2. 调用规则对一些常见人名比如张三李四的处理结果不太好，因此用了HanLP（一个开源自然语言处理包）中的NER模块对这些常见人名进行处理，提高了准确率
具体方案可以看tower任务的二楼流程图

代码

位于com.yeezhao.dolphin.crawler.people中的PeopleIdentityAnalyze

一些关键点说明：
- PEOPLE_DESCRIPTORS：人物描述符，作为判断是否为人物的依据
- peopleAttrWords：人物属性，如果从HBase读来的json数据含有这些属性其中之一，就认为是一个人物
- Weight：不同规则的权重
- handleEntry(PeopleInfo info)：基于规则得到的分数判断一条记录是不是人物
- hasPeopleInfo(PeopleInfo info, Map<String, String> attrMap, String key, String idForCheck)：统计一条记录包含多少PEOPLE_DESCRIPTORS种的信息，作为判断是否为人物的依据之一
遇到问题
1. 名字里带故居、墓的被识别为人物
  解决：用正则表达式加以判断
2. 更新SQL表速度慢
  暂时得不到解决
3. 一些权重设置有问题，详情请见t_people_misclassified表，里面有个score字段，表示加权后的得分，另外有个match字段，表示正则表达式命中的关键字，你会发现有些命中了出生年月的人得分很低，原因是我给出生年月的规则设置的权重比较低，解决办法是给这些规则设置更细致的优先级。
查看全文

相关阅读:
使用fiddler2抓取手机发出的请求信息
 HTML转义字符集合
 spm3安装和使用
 JSP
Servlet
Struts2
java多线程-消费者和生产者模式
 java异常处理机制(try-catch-finally)
java内部类
 java上转型和下转型（对象的多态性）

原文地址：https://www.cnblogs.com/wacc/p/5038580.html

最新文章
vue折叠面板
 canvas 水波纹
 在vue-cli中使用swiper
图表
 算法2
博客框架
 算法
 mysql分库分页查询
 网址
 Cookie

热门文章
JedisPubSub
异常
 Mybatis日志
 sql
判断相等的复杂度
 优秀博客地址
 获取动态代理生成的.class文件
 单词2
Xcode
jqGrid 学习笔记（转）

任务三 非人物分析判断

任务三 非人物分析判断

任务描述

实现方案

代码

遇到问题

任务三非人物分析判断

任务三非人物分析判断