zoukankan      html  css  js  c++  java
  • 中文依存句法分析概述及应用

    句法分析是自然语言处理领域的一个关键问题,如能将其有效解决,一方面,可对相应树库构建体系的正确性和完善性进行验证;另一方面,也可直接服务于各种上层应用,比如搜索引擎用户日志分析和关键词识别,比如信息抽取、自动问答、机器翻译等其他自然语言处理相关的任务。

    短语结构和依存结构是目前句法分析中研究最广泛的两类文法体系。这里先大概介绍下依存结构。

    依存文法最早由法国语言学家L.Tesniere在其著作《结构句法基础》(1959年)中提出,对语言学的发展产生了深远的影响,特别是在计算语言学界备受推崇。

    依存语法通过分析语言单位内成分之间的依存关系揭示其句法结构,主张句子中核心动词是支配其它成分的中心成分,而它本身却不受其它任何成分的支配,所有受支配成分都以某种依存关系从属于支配者。

    在20世纪70年代,Robinson提出依存语法中关于依存关系的四条公理,在处理中文信息的研究中,中国学者提出了依存关系的第五条公理,如下:

    1、一个句子中只有一个成分是独立的;
    2、其它成分直接依存于某一成分;
    3、任何一个成分都不能依存与两个或两个以上的成分;
    4、如果A成分直接依存于B成分,而C成分在句中位于A和B之间,那么C或者直接依存于B,或者直接依存于A和B之间的某一成分;
    5、中心成分左右两面的其它成分相互不发生关系。



    句子成分间相互支配与被支配、依存与被依存的现象普遍存在于汉语的词汇(合成语)、短语、单句、复合直到句群的各级能够独立运用的语言单位之中,这一特点为依存关系的普遍性,依存句法分析可以反映出句子各成分之间的语义修饰关系,它可以获得长距离的搭配信息,并与句子成分的物理位置无关。

    附:LTP依存分析模块所使用的依存关系标记含义 (http://ir.hit.edu.cn/demo/ltp)
    依存关系标记(共24个)
    定中关系ATT(attribute)
    数量关系QUN(quantity)
    并列关系COO(coordinate)
    同位关系APP(appositive)
    前附加关系LAD(left adjunct)
    后附加关系RAD(right adjunct)
    动宾关系VOB(verb-object)
    介宾关系POB(preposition-object)
    主谓关系SBV(subject-verb)
    比拟关系SIM(similarity)
    核心HED(head)
    连动结构VV(verb-verb)
    关联结构CNJ(conjunctive)
    语态结构MT(mood-tense)
    独立结构IS(independent structure)
    状中结构ADV(adverbial)
    动补结构CMP(complement)
    “的”字结构DE
    “地”字结构DI
    “得”字结构DEI
    “把”字结构BA
    “被”字结构BEI
    独立分句IC(independent clause)
    依存分句DC(dependent clause)

    关于中文句法分析的应用,工业界我知道的百度和雅虎都有尝试,

    百度的query分析,雅虎利用句法信息做多粒度切词等等。

  • 相关阅读:
    读书是最划算的自我投资,免费送几本最好的Python学习电子书
    一个出身寒门的状元之编程
    幼儿园小朋友都在学人工智能了,已经从小学毕业的我们该如何学?
    python语音识别终极指南
    Python可视化神器——pyecharts的超详细使用指南!
    用 Python 分析过往 36 年春晚节目数据,发现一些趣事
    拉勾网数据分析职位分析
    按时分秒对数据进行分箱
    numpy
    基于协同过滤的推荐系统案列
  • 原文地址:https://www.cnblogs.com/sch-2015/p/4953141.html
Copyright © 2011-2022 走看看