机器翻译

zoukankan html css js c++ java

机器翻译

机器翻译

机器翻译大体经过了两个阶段：

理性主义阶段（1949~1992）：

主张由人类专家观察不同语言间的转换规律，以规则的形式表示翻译知识。

缺点：翻译知识获取难、开发周期长、人工成本高等

经验主义阶段（1993~2016）：

主张以数据为核心，通过数据模型来描述自然语言之间的转换过程，在大规模语言文本数据中自动训练数学模型。

其主要代表为“ 统计机器翻译 ”（Statistics Machine Translate）

统计机器翻译

基本思想：

通过隐结构来描述翻译过程，利用特征来刻画翻译规律，并且通过特征的局部性采用动态规划算法在指数级的搜索空间

中实现多项式时间复杂度的高效运算。

隐结构：词语对齐、短语切分、短语调序、同步文法等

缺点：

SMT面临翻译性能严重依赖于隐结构和特征设计，局部特征难以捕获全局依赖关系，对数线性模型难以处理翻译过程中

的线性不可分现象等难题。

基于句法的统计机器翻译（2000年后）

基于形式化语法的翻译模型：

建立在形式化语法的基础上，但并不能包含人类语言学知识，如短语标记、词与词之间的依赖关系等。

基于语言学语法的翻译模型：

建立在语言学语法基础上，将人类语言学知识包含到模型中，并根据其采用的结构树形式的不同，又可将其分为基于短语

结构树、基于依存树

a、基于短语结构树

通过短语结构树，将短语的句法标记及标记间的依赖关系等引入到翻译过程中。

b、基于依存树

改模型通过依存树，将词与词之间的了、依赖约束关系等语言学知识引入到翻译过程中。

基于形式化语法的模型与基于句法的模型相比，最明显的特点是借用了形式化语法的结构，使得翻译过程是层次化的，有结构的。

其优点有二：

a、层次化结构使得处理复杂的远距离重排序变得更为可行。

b、层次化结构自然而然的引入非终结符号，从而使得模型能够处理非连续短语，同时又具有一定的泛化能力。

通俗的说,终结符号就是语言中用到的基本元素,一般不能再被分解;
名词,动词,形容词,助词,等等基本语言单位.

非终结符则是"语法"中用到的元素,除非谈论"语法",一般交谈语言中并不会用到非终结符.
比如,主语,短语,词组,句子.

查看全文

相关阅读:
关于 Delphi 中的Sender和易混淆的概念（转）
C#实现打印与打印预览功能（转）
Quartz.NET
如何从Powerdesigner进行数据建模并生成SQL脚本
 pentaho BI套件中PSW和PDI的连接
 Oracle中如何使用imp语言导入dmp文件
 DatePicker和DateEdit的区别
 dev控件中LookUpEdit的数据绑定问题
 如何在GridControl的某一列放入CheckBox、Button以及其他控件
 在GridControl中如何选中某一行中的某一列

原文地址：https://www.cnblogs.com/hanouba/p/10309592.html

机器翻译

机器翻译大体经过了两个阶段：

理性主义阶段（1949~1992）：

经验主义阶段（1993~2016）：

统计机器翻译

基本思想：

缺点：

基于句法的统计机器翻译（2000年后）

基于形式化语法的翻译模型：

基于语言学语法的翻译模型：

a、基于短语结构树

b、基于依存树