领域相关度:
其中
领域一致度:
,其中
在抽取之前,需要准备几个领域,每个领域准备大量的文本。比如:军事、科技、体育、财经、汽车、房产等等。
有一些数据是不完整的,甚至是脏数据,需要在数据准备好之后做数据清洗,删除包含乱码的文本、删除英文文本、删除内容重复的文档,删除包含大量HTML标签的文档,删除内容中大量重复的内容(如:预料是新闻,可能会每篇文档中都包含“中新网北京1月23日电”之类的内容)。
每一个子文件夹中都包含该领域的文档,分别为汽车、育儿、教育、女性、技术、时尚、财经、健康、运动。
一、分词和词性标注
预料准备好之后,需要做分词和词性标注的工作。下面是该工具提供的分词和词性标注API.
建议使用MapReduce版本的标注API,TokenAndTagJob类。
public void run(String inPath, String outPath) |
对一个目录中的文本做分词和词性标注 |
分词和词性标注处理完之后的内容如下:
【/w 文献/n 题名/v 】/w :/w 城/n 华/b 地区/n 延安/ns 组/n 延/g8/a ~/w 延/g 10/n 储层/n 岩石学/n 特征/n 【/w 文摘/n 号/q 】/w :/w2001020170/m 【/w 文献/n 类型/n 】/w :/w 刊/g 【/w 分类/vn 号/n 】/w :/wTE112/x ./w 23/m 【/w 期刊/n 名/q 】/w :/w 西安/ns 石油/n 学院/n 学报/n 自然/n 版/n 【/w 年/n 卷/g 期/g 】/w :/w2000/m ,/w 15/m (/w 3/n )/w 【/w 页码/n 】/w :/w1/a ~/x 3/n ,/w 10/n 【/w 作者/n 】/w :/w 宋广寿/nr ,/w 杨/nr 技/g 【/w 作者/n 单位/n 】/w :/w 长庆/ns 油田/n 公司/n 采油/v 二/m 厂/n 地质/n 研究所/n 【/w 原文/n 出版/v 年/qt 】/w :/w2000/m 【/w 图表/n 参/g 】/w :/w 图3参/nr2/n 【/w 主题词/n 】/w :/w 储集层/n 特征/n;/w 孔隙/n 成因/n 【/w 文摘/n 】/w :/w 利用/vX/x 衍射/v 全/a 岩/g 分析方法/n 、/w 粘土/n 矿物/n 定量分析/l 方法/n 和/cc 薄片/n 鉴定/vn 等/u 方法/n 研究/v 了/u 城/n 华/b 地区/n 延/g8/a ~/w 延/g 10/n 储层/n 岩石学/n 特征/n 和/cc 孔隙/n 成因/n 类型/n 。/w 综合/v 论述/v 了/u 城/n 华/b 地区/n 延/g8/a ~/w 延/g 10/n 油/n 组/q 不同/a 岩/g 相/d 储层/n 砂岩/n 的/u 基本特征/n ,/w 纠正/v 了/u 砂岩/n 定名/v 的/u 错误/n 和/cc 主要/d 填/v 隙/g 物/g 成分/n 的/u 错误/n ,/w 还/d 论述/v 了/u 储层/n 砂岩/n 的/u 孔隙/n 特征/n 和/cc 控制/vn 孔隙/n 发育/v 的/u 主要/b 因素/n 。/w 【/w 文摘/n 员/q 】/w :/w 马丽/nr
二、抽取领域术语
词性标注完之后,就可以调用Ontology 抽取领域术语了。下面是实例。
// 参数封装 OntologyOperation operation = new OntologyOperation(); operation.setTestPath("分类_tokend"); //分词和词性标注后的 operation.setOutPath("ontology_分类"); //抽取领域术语结果目录 operation.setLamda(0.6);// ndd和ncd的比重,默认是0.5 operation.setStopWordsPath("stopwords");//停用词文件路径 Configuration conf =new Configuration(); //在hadoop集群中使用,必须设置 hdfs fs name ,具体参看 //hdfs-site.xml conf.set("fs.default.name", "hdfs://192.168.4.23:9999");
Ontology ontology =new Ontology(conf); //执行领域术语的抽取 ontology.run(operation); |
抽取结果:
每一个文件中保存某一领域的术语和权重,术语顺序按照术语的权重由大到小。越往上和本领域最相关的部分,越往下是和领域越不相关的部分。
汽车领域:
幻影/n 0.3910593139427473 汽车/n 0.38552070782346365 系列/n 0.3849238241483909 论坛/n 0.3822022955534813 来宾/n 0.3814991553300009 身份证/n 0.3814643303613873 车型/n 0.3812698805672925 嘉年华/n 0.3810316978270879 经销商/n 0.3810294885160848 大众/n 0.3798762521563308 口碑/n 0.3769977747541958 售价/n 0.3706252408163245 动力/n 0.35661561638221867 引擎/n 0.3537919450642671 轴距/n 0.3513435337268461 发动机/n 0.35031323733269465 品牌/n 0.35019905726782324 |
育儿领域:
孩子/n 0.6083338178366626 妈妈/n 0.5795633679337582 时间/n 0.5666556375725188 宝宝/n 0.5644493150898459 儿童/n 0.5495347522570228 生活/vn 0.5380710659903973 家长/n 0.5376476116436651 影响/vn 0.5347469971542526 身体/n 0.5328702840194202 能力/n 0.5257242831980316 活动/vn 0.5253617853321019 父母/n 0.5204357874228931 营养/n 0.5136165980528928 家庭/n 0.5069390253210327 教育/vn 0.5028661460255032 发育/vn 0.5027495315547349 环境/n 0.5015883969770852 食物/n 0.49767223383846027 |
女性:
女性/n 0.31487990557885037 肌肤/n 0.31304528683015265 效果/n 0.308960714646986 产品/n 0.3051812878726879 皮肤/n 0.2970426920103549 女人/n 0.2955534547286699 成分/n 0.2938600008759204 功效/n 0.27799975106291236 保湿/n 0.2756107894868808 身体/n 0.27533528526451734 朋友/n 0.2740272629967851 品牌/n 0.27341987878347074 时尚/n 0.2679356026043557 美容/vn 0.2644552884818885 男人/n 0.2641450904843061 质地/n 0.26181214361494803 专业/n 0.26170017085661 水分/n 0.2602422981402292 系列/n 0.26001591640221594 配方/n 0.2599989399928897 |
财经领域:
市场/n 0.3608140146859866 经济/n 0.3547614541390426 风险/n 0.35239024337960634 金融/n 0.34577383407763246 公司/n 0.34392214119735787 危机/n 0.34255891673024036 投资/vn 0.3395183844284213 国家/n 0.3392216143490847 资产/n 0.33345102321911135 投资者/n 0.3276108467970701 企业/n 0.3247636216772157 财经/n 0.32295135215194143 关系/n 0.32274033777395 国际/n 0.3210001803088927 信息/n 0.32034858779587655 发展/vn 0.3198368908049424 经济学/n 0.31978792379152343 方面/n 0.31848495358432266 政府/n 0.3177799739084163 政策/n 0.31683813309168585 资本/n 0.3164516569407639 |