zoukankan      html  css  js  c++  java
  • 灵玖软件:大数据语言新特征发现

      信息的基本单位是句子,一个句子可以较表达完整连贯的易于理解的语义。句子中起主要作用的往往是关键词、词组或短语,而句子中的其他成分只是起到进一步修饰连接的作用,它们只是对基本信息的细化和补充。一旦获取了这些有意义的关键信息,便能获取句子的基本信息。因此,新特征语言和有意义串发现对中文自然语言理解是很有意义的。发现频繁使用的新词和短语等有意义串不仅能改进分词准确率,也有着其他广泛的应用前景。其应用领域主要如下几个方面:

      首先,是对信息检索索引词的分析。例如,“计算技术研究所”是一个完整的查询词,而“计算”或者“技术”几乎不会有人去查询。当用户想搜索大众汽车时,输入“大众”得到的搜索结果可能不太准确,包含很多类似“人民大众”、“劳苦大众”这样非大众汽车的信息,而作为有意义串的“上海大众”具有语义完整性,能够排除歧义,一般能更准确地描述用户的需求。所以,有意义串能够应用到信息检索的查询词修正以及相关搜索分析。

      其次,在社会热点挖掘与跟踪方面有应用价值。一个有意义串就是一个线索,就是一个很有价值的社会现象,它们往往包含了网民对当前社会各种现象的立场和观点。因此,对新特征语言和有意义串的挖掘,对社会热点挖掘与舆情监控的意义重大。

      第三,能用于信息分析与特征提取。除字和词外,常用的文本特征项主要有短语、语义概念、有意义串等。有意义串的提取对于改善文本分类和聚类性能具有重要指导意义。

      第四,对词典扩充与语料库建设意义重大。由于新词出现的速度不断加快,新词出现的领域不断增多,使用传统的人工方法搜集新词语,既耗时又耗力且时效性差。如果利用电脑的计算能力和自动检测方法,可以快速输出新词候选供人工进行筛选,这将大大减轻了人的负担。若能将新词属于有意义串的一部分被自动提取出来,必将促进语料库的自动化建设。此外,有意义串挖掘进一步深化可以进行关键频繁模式挖掘,对更高层次的文本自动内容抽取、话题检测和机器翻译等应用都有比较重要的意义。

      新特征词和有意义串是指具备统计意义的串,新特征词和有意义串主要分为以下几个类别(其中前两类全部是词语,后三类中既包括词语又包括短语和词组):

      (1). 命名实体,如 “民进党”、 “巴西队”等;

      (2). 新造词,指狭义新词,如“博客”、“户型”、“撞衫”等;

      (3). 领域术语,指领域相关的常用术语,如“计算语言学”、“未登录词”、“股骨头坏死”等;

      (4). 固定搭配,主要指通用语料中经常使用的常用搭配,如“住房需求”等;

    (5). 成语、歇后语等惯用语,如“智者千虑,必有一失”,“仁者见仁,智者见智”等。

    有很多学者用统计的方法提取有意义串,即根据一个字符串的频率、互信息(Mutual Information,MI)、邻接类别(Accessor Variety, AV)等统计量来判断该串是否为有意义串。这种方法对高频与意义串处理结果较好,但对很难有效的提取低频的有意义串。

      而NLPIR文本搜索与挖掘系统是针对互联网内容处理的需要,融合了自然语言理解、网络搜索和文本挖掘的技术,提供了用于技术二次开发的基础工具集。

      NLPIR能够全方位多角度满足应用者对大数据文本的处理需求,包括大数据完整的技术链条:网络抓取、正文提取、中英文分词、词性标注、实体抽取、词频统计、关键词提取、语义信息抽取、文本分类、情感分析、语义深度扩展、繁简编码转换、自动注音、文本聚类等。

  • 相关阅读:
    HTTP Error 502.5
    ubuntu 换源 aliyun
    vsdbg 下载方法 使用下载工具下载后手动安装
    Asp.NET Core Nginx Ocelot ForwardedHeaders X-Forwarded-For
    ocelot性能测试
    Hyper V 内部网络(NAT)设置 配置固定IP / DHCP
    Powershell ExecutionPolicy 执行策略
    centos ftp服务器搭建 vsftpd 匿名访问配置方法 ftp 550 Failed to open file 错误处理
    powershell与linux bash对比
    virtualbox 配置记录
  • 原文地址:https://www.cnblogs.com/ljrj/p/8081090.html
Copyright © 2011-2022 走看看