zoukankan      html  css  js  c++  java
  • 基于领域相关度和领域一致度的领域术语抽取实现

    领域相关度:

                           其中

    领域一致度:

                                        ,其中

    在抽取之前,需要准备几个领域,每个领域准备大量的文本。比如:军事、科技、体育、财经、汽车、房产等等。

    有一些数据是不完整的,甚至是脏数据,需要在数据准备好之后做数据清洗,删除包含乱码的文本、删除英文文本、删除内容重复的文档,删除包含大量HTML标签的文档,删除内容中大量重复的内容(如:预料是新闻,可能会每篇文档中都包含“中新网北京1月23日电”之类的内容)。

       每一个子文件夹中都包含该领域的文档,分别为汽车、育儿、教育、女性、技术、时尚、财经、健康、运动。

    一、分词和词性标注

    预料准备好之后,需要做分词和词性标注的工作。下面是该工具提供的分词和词性标注API.

    建议使用MapReduce版本的标注API,TokenAndTagJob类。

    public void run(String inPath, String outPath)

    对一个目录中的文本做分词和词性标注

      分词和词性标注处理完之后的内容如下:

    【/w 文献/n 题名/v 】/w :/w 城/n 华/b 地区/n 延安/ns 组/n 延/g8/a ~/w 延/g 10/n 储层/n 岩石学/n 特征/n 【/w 文摘/n 号/q 】/w :/w2001020170/m 【/w 文献/n 类型/n 】/w :/w 刊/g 【/w 分类/vn 号/n 】/w :/wTE112/x ./w 23/m 【/w 期刊/n 名/q 】/w :/w 西安/ns 石油/n 学院/n 学报/n 自然/n 版/n 【/w 年/n 卷/g 期/g 】/w :/w2000/m ,/w 15/m (/w 3/n )/w 【/w 页码/n 】/w :/w1/a ~/x 3/n ,/w 10/n 【/w 作者/n 】/w :/w 宋广寿/nr ,/w 杨/nr 技/g 【/w 作者/n 单位/n 】/w :/w 长庆/ns 油田/n 公司/n 采油/v 二/m 厂/n 地质/n 研究所/n 【/w 原文/n 出版/v 年/qt 】/w :/w2000/m 【/w 图表/n 参/g 】/w :/w 图3参/nr2/n 【/w 主题词/n 】/w :/w 储集层/n 特征/n;/w 孔隙/n 成因/n 【/w 文摘/n 】/w :/w 利用/vX/x 衍射/v 全/a 岩/g 分析方法/n 、/w 粘土/n 矿物/n 定量分析/l 方法/n 和/cc 薄片/n 鉴定/vn 等/u 方法/n 研究/v 了/u 城/n 华/b 地区/n 延/g8/a ~/w 延/g 10/n 储层/n 岩石学/n 特征/n 和/cc 孔隙/n 成因/n 类型/n 。/w 综合/v 论述/v 了/u 城/n 华/b 地区/n 延/g8/a ~/w 延/g 10/n 油/n 组/q 不同/a 岩/g 相/d 储层/n 砂岩/n 的/u 基本特征/n ,/w 纠正/v 了/u 砂岩/n 定名/v 的/u 错误/n 和/cc 主要/d 填/v 隙/g 物/g 成分/n 的/u 错误/n ,/w 还/d 论述/v 了/u 储层/n 砂岩/n 的/u 孔隙/n 特征/n 和/cc 控制/vn 孔隙/n 发育/v 的/u 主要/b 因素/n 。/w 【/w 文摘/n 员/q 】/w :/w 马丽/nr

    二、抽取领域术语

       词性标注完之后,就可以调用Ontology 抽取领域术语了。下面是实例。

           // 参数封装

                  OntologyOperation  operation = new OntologyOperation();

                  operation.setTestPath("分类_tokend"); //分词和词性标注后的

                  operation.setOutPath("ontology_分类"); //抽取领域术语结果目录

                  operation.setLamda(0.6);// ndd和ncd的比重,默认是0.5

                  operation.setStopWordsPath("stopwords");//停用词文件路径

                  Configuration  conf =new Configuration();

                  //在hadoop集群中使用,必须设置 hdfs fs name ,具体参看

           //hdfs-site.xml

                  conf.set("fs.default.name", "hdfs://192.168.4.23:9999");

                 

                  Ontology ontology =new Ontology(conf);

           //执行领域术语的抽取

                  ontology.run(operation);

    抽取结果:

                      

         每一个文件中保存某一领域的术语和权重,术语顺序按照术语的权重由大到小。越往上和本领域最相关的部分,越往下是和领域越不相关的部分。

    汽车领域:

    幻影/n 0.3910593139427473

    汽车/n 0.38552070782346365

    系列/n 0.3849238241483909

    论坛/n 0.3822022955534813

    来宾/n 0.3814991553300009

    身份证/n   0.3814643303613873

    车型/n 0.3812698805672925

    嘉年华/n   0.3810316978270879

    经销商/n   0.3810294885160848

    大众/n 0.3798762521563308

    口碑/n 0.3769977747541958

    售价/n 0.3706252408163245

    动力/n 0.35661561638221867

    引擎/n 0.3537919450642671

    轴距/n 0.3513435337268461

    发动机/n   0.35031323733269465

    品牌/n 0.35019905726782324

    育儿领域:

    孩子/n 0.6083338178366626

    妈妈/n 0.5795633679337582

    时间/n 0.5666556375725188

    宝宝/n 0.5644493150898459

    儿童/n 0.5495347522570228

    生活/vn    0.5380710659903973

    家长/n 0.5376476116436651

    影响/vn    0.5347469971542526

    身体/n 0.5328702840194202

    能力/n 0.5257242831980316

    活动/vn    0.5253617853321019

    父母/n 0.5204357874228931

    营养/n 0.5136165980528928

    家庭/n 0.5069390253210327

    教育/vn    0.5028661460255032

    发育/vn    0.5027495315547349

    环境/n 0.5015883969770852

    食物/n 0.49767223383846027

    女性:

    女性/n 0.31487990557885037

    肌肤/n 0.31304528683015265

    效果/n 0.308960714646986

    产品/n 0.3051812878726879

    皮肤/n 0.2970426920103549

    女人/n 0.2955534547286699

    成分/n 0.2938600008759204

    功效/n 0.27799975106291236

    保湿/n 0.2756107894868808

    身体/n 0.27533528526451734

    朋友/n 0.2740272629967851

    品牌/n 0.27341987878347074

    时尚/n 0.2679356026043557

    美容/vn    0.2644552884818885

    男人/n 0.2641450904843061

    质地/n 0.26181214361494803

    专业/n 0.26170017085661

    水分/n 0.2602422981402292

    系列/n 0.26001591640221594

    配方/n 0.2599989399928897

    财经领域:

    市场/n 0.3608140146859866

    经济/n 0.3547614541390426

    风险/n 0.35239024337960634

    金融/n 0.34577383407763246

    公司/n 0.34392214119735787

    危机/n 0.34255891673024036

    投资/vn    0.3395183844284213

    国家/n 0.3392216143490847

    资产/n 0.33345102321911135

    投资者/n   0.3276108467970701

    企业/n 0.3247636216772157

    财经/n 0.32295135215194143

    关系/n 0.32274033777395

    国际/n 0.3210001803088927

    信息/n 0.32034858779587655

    发展/vn    0.3198368908049424

    经济学/n   0.31978792379152343

    方面/n 0.31848495358432266

    政府/n 0.3177799739084163

    政策/n 0.31683813309168585

    资本/n 0.3164516569407639

  • 相关阅读:
    [线段树][数学]JZOJ 4237 Melancholy
    [规律]JZOJ 4222 恐怖的奴隶主
    [Tarjan][基环树]JZOJ 4221 互相追逐的点
    [斯特林数][自然数幂和]JZOJ 4220 WYF的盒子
    奇妙的骚操作
    [树形DP][概率期望]JZOJ 4225 宝藏
    操作系统基础知识
    计算机硬件知识整理
    ORM的查询
    ORM的记录添加和删除
  • 原文地址:https://www.cnblogs.com/cl1024cl/p/6205084.html
Copyright © 2011-2022 走看看