zoukankan      html  css  js  c++  java
  • 机器翻译

    机器翻译

    机器翻译大体经过了两个阶段

      理性主义阶段(1949~1992):

              主张由人类专家观察不同语言间的转换规律,以规则的形式表示翻译知识。

              缺点:翻译知识获取难、开发周期长、人工成本高等

      经验主义阶段(1993~2016):

              主张以数据为核心,通过数据模型来描述自然语言之间的转换过程,在大规模语言文本数据中自动训练数学模型。

              其主要代表 为“ 统计机器翻译 ”(Statistics  Machine  Translate) 

    统计机器翻译

      基本思想:

             通过隐结构来描述翻译过程,利用特征来刻画翻译规律,并且通过特征的局部性采用动态规划算法在指数级的搜索空间

             中实现多项式时间复杂度的高效运算。

             隐结构:词语对齐、短语切分、短语调序、同步文法等

      缺点:

             SMT面临翻译性能严重依赖于隐结构和特征设计,局部特征难以捕获全局依赖关系,对数线性模型难以处理翻译过程中

             的线性不可分现象等难题。

    基于句法的统计机器翻译(2000年后)

      基于形式化语法的翻译模型:

             建立在形式化语法的基础上,但并不能包含人类语言学知识,如短语标记、词与词之间的依赖关系等。

      基于语言学语法的翻译模型:

            建立在语言学语法基础上,将人类语言学知识包含到模型中,并根据其采用的结构树形式的不同,又可将其分为基于短语 

            结构树、基于依存树

           a、基于短语结构树

           通过短语结构树,将短语的句法标记及标记间的依赖关系等引入到翻译过程中。

           b、基于依存树

           改模型通过依存树,将词与词之间的了、依赖约束关系等语言学知识引入到翻译过程中。

    基于形式化语法的模型与基于句法的模型相比,最明显的特点是借用了形式化语法的结构,使得翻译过程是层次化的,有结构的。

      其优点有二:

         a、层次化结构使得处理复杂的远距离重排序变得更为可行。

         b、层次化结构自然而然的引入非终结符号,从而使得模型能够处理非连续短语,同时又具有一定的泛化能力。

       通俗的说,终结符号就是语言中用到的基本元素,一般不能再被分解;
       名词,动词,形容词,助词,等等基本语言单位.

       非终结符则是"语法"中用到的元素,除非谈论"语法",一般交谈语言中并不会用到非终结符.
        比如,主语,短语,词组,句子.

  • 相关阅读:
    nyoj 21三个水杯(BFS + 栈)
    hdu 4493 Tutor
    树的判断(poj nyoj hduoj)
    nyoj 228 士兵杀敌(五)
    poj 3468 A Simple Problem with Integers(线段树)
    hdu 2565 放大的X
    nyoj 528 找球号(三)(哈希)
    nyoj 138 找球号(二)(哈希)
    算法之搜索篇
    每日命令:(11)nl
  • 原文地址:https://www.cnblogs.com/hanouba/p/10309592.html
Copyright © 2011-2022 走看看