职业能力名称匹配去噪处理流程样例

zoukankan html css js c++ java

职业能力名称匹配去噪处理流程样例

1.思路：
（1）模式识别：结合uc表的title和job_title字段探索职能结构模式；
（2）识别职能：根据识别后的模式实现title的识别；
（3）识别方法改进调优：由于识别后的结果中仍可能存在过于细节噪音信息（如：java支付金融业务架构师），故使用title关键字构建trie森林结构，实现title的分层（如：001 001003 001003001 000000000001 java游戏架构师——技术架构师 java 游戏），既能提高查询效率，也能实现信息过滤。

2.方法：
2.1模式识别：
（1）清除垃圾信息：如：'谢谢', '萨芬', '看看','知道'等；
（2）职级评定：分为技术类职级和管理类职级，技术类以管理等级进行区分（如：总监、经理），技术类以技术掌握程度进行区分（如：资深、实习）；
（3）title由skill、suffix、level和other4个字段构成，对源数据进行聚类，得到出现频率高的suffix和level构建后缀和职级字典；
（4）构建包含具有分类意义的非技能词（如：开发）的泛技能词词典；
（4）使用泛技能词字典、suffix字典和level字典对源数据进行标注；
（5）识别title的组成模式（如：skills + others + suffix）。

2.2识别职能：
（1）处理分词细节，（如：工程师——工程|师，教师——教|师）、英文技能词混写（如：javac++开发工程师）；
（2）管理类职级统一为管理（如：销售总监——销售管理（level：总监））；
（3）依据模式识别职能。

存在的问题：
（1）others中的噪音太多，使职能极具细化，泛化能力太弱；
（2）只能知道是否匹配，但为什么不匹配，不匹配到什么程度无从可知；
（3）该方法每次都需遍历整个字符串识别模式，而很多时候优先匹配某些关键词就能直接得出不匹配的结果（如：销售和工程）。

解决办法：
主要是如何去噪、可解释性和匹配效率三个问题。trie树可以解决可解释性和匹配效率两个问题，对于去噪问题可以对trie做一个变种。首先树的非叶节点不再是职能中所有出现的单词或词组，而是出现的关键词（如：java支付金融业务架构师——架构、金融、支付、架构师）；其次，取消叶节点，变成没有父节点的散节点，用于存在职能中出现的技能或方法对象（如：java），因为技能跟职能的类别不具有一一对应的关系；最后，诸如技术、销售等职能的大类别并没有什么共性，故将树改为森林。

2.3识别方法改进：
（1）进一步数据清洗（删除多余空格、合并名称相同但职级不同的职能）；
（2）构建trie森林结构：
每棵树的根节点（3位数表示）：职能类别统称（可能为非职能中的特征词），如：技术（001）、市场（002）、销售（003）等。
每棵树的一级节点（6位数表示）：职能关键类别（一定为职能中出现的特征词），用于做第一步匹配，如：工程（001001）、设计（001002）等。
每棵树的二级节点（9位数表示）：职能详细类别（一定为职能中出现的特征词），用于做第二步匹配，如：前端（001001002）、测试（001001003）
散节点（无父节点的点）：最后一层是技能节点，也就是职能中出现的技能节点或泛技能节点（如：java开发工程师中的java），之所以称为散节点是因为技能并不完全隶属于任何一种大职能（如“3dmax建筑模型师”既属于技术中的设计类，也属于建造类的设计类），故没有父节点；
（3）使用样例；
假设该结构用于比较B端职位名称和C端的title名称
首先匹配B、C的一级节点（职能中出现的最高层次的关键词），如果一级节点不同则直接为不同；
如果一级节点不同而根节点相同，那么可能是未识别的正确的一级节点；
如果一级节点相同且二级节点相同，那么两个职能在主要方向是相同的；
如果一级节点相同而二级节点不同，说明两者不是同一个职能，但都是一个大类型的；
如果一级节点相同、二级节点相同、散节点也相同，那么两个职能完全一样；
如果一级节点相同、二级节点相同、散节点不同，那么两个职能类型一样但用的技能不一样。
例子：B端：3dmax场景设计师、C端：3dmax模型设计师
首先匹配“设计（001002）”，两者相同，说明两个职能一级节点相同（都属于设计类）；
其次匹配“场景（001002022）”和“模型（001002016）”，两者不同，说明两个职能不是同一个职能；
最后匹配“3dmax（000000000029）”，说明使用的技能是相同的
结论：使用同一种技能的两个不同的技术类的设计师。

3.优缺点：
优点：无需匹配所有的字符即可过滤不匹配的情况；
可解释性更强，可以清楚两个职位不同的原因；
可以有效过滤出现的过于细节的噪音（linux后台服务器c++工程师——技术、工程、后台开发、linux、c++）。
缺点：trie森林结构更新量庞大。

4.成果：
通过人工、聚合等方法，现已构建11个根节点、31个一级节点、539个二级节点、2151个散节点，共识别去噪后的7646个不同的职能。

查看全文

相关阅读:
linux 中more、less 和 most 的区别
 mysql数据备份之 xtrabackup
Web登录中的信心安全问题
 Yii2.0教程应用结构篇 —— 入口脚本
 HTML基础之JS
HTML基础之DOM操作
 HTML基础之CSS
HTML基础之HTML标签
 Python之unittest参数化
 Python之单元测试unittest

原文地址：https://www.cnblogs.com/xpNLP/p/5643806.html