zoukankan      html  css  js  c++  java
  • 关于简繁转换的工作以及校正转换词汇表的设计

    目前,我们要做的工作有好几项。

    1. 整理出一简对多繁和一繁对多简的汉字(在维基百科上似乎有个比较齐全的列表,我已经收集好了)。
    2. 针对这些汉字分别制作转换校正表(ConvertZ本身自带,维基百科上也有,但词汇量还是太少了些)。
    3. 收集简繁转换所用的测试文本范例(目前没找到比较齐全的测试范例)。
    4. 开发程序进行转换。

    除了上述第一条基本上已完成、第四条只能由本人完成之外,第二三条均可通过大家协作来完成。希望有更多的人参与上述工作,让简繁转换的工作能做得更好些。
    我当前的设计目标是尽可能高效地完善简繁汉字转换,而暂时不考虑术语和词汇的转换(如“程序”转为“程式”)。

    暂时将简繁互转的校正词文件格式定为如下形式:

    1. 分三列,以制表符隔开。
    2. 第一列表示汉字转换的字头,第二列表示对应的繁体(或繁转简时的简体)汉字。
    3. 如第一列为空,则第二列内容表示使用上述对应繁体汉字的词条。
    4. 无论是用于简转繁还是繁转简,词条均可为简体或繁体。
    5. 在特定场合下,需要严格匹配词条字符串时,可在词条前加“=”号。
    6. 匹配词条如有特定的繁体(或简体)形式,可在第三列书写转换后的形式(一般场合下不需指定第三列,通常仅用于词条其它字也存在一简对多繁的场合)。如转换后的形式与第二列相同,可在第三列以“=”号代替。
    7. 当某一对多汉字没有特定词条可对应时,采用校正词文件中第一个对应字。
    8. 较长的词汇具有较高的优先级。
    9. “#”或“;”后的内容代表注释内容。


    简繁转换校正词表的示例:

    了    了 ; 指定“了”字的默认繁体为“了”(即大多数场合下不作转换)
        望了望
    了    瞭 ; 在出现下列词条时,将“了”转换为“瞭”
        瞭解 ; 出现“了解”时,转换为“瞭解”
        了解 ; 与上一行相同,程序将此行与上一行视为等同(校正词既可用繁体,也可用简体)
        #明瞭    ;又作“明了”,暂且保留(由于第二列以“#”开始,表示此行为注释)
        瞭望
        瞭然
        瞭望哨
        瞭望臺    瞭望臺 ; 由于“台”转“臺”字也属于一简对多繁形式,故在第三列指定“瞭望臺”
        瞭望山
        瞭若指掌
        瞭如觀火 ; 此条相当于“了如观火”,程序自动将简繁一一对应的“观”转换为“觀”
        瞭如指掌
        眸子瞭
    
    万    萬 ; 默认将“万”转换为“萬”
    万    万 ; 在以下场合下将“万”保持不变
        万俟
        万紐于    万紐于 ; 由于“于”转“于”也属于一简对多繁场合,故在第三列指定“万纽于”转换后的形式
    
    云  雲  ; 默认将“云”转换为“雲”
    云  云  ; 当表示“说”的意思时,保持不变
      诗云  ; “诗”字由程序自动转换为“詩”,“云”字保持不变
      云云  =
      人云亦云  =
    
  • 相关阅读:
    1.C和C++区别,以及const分析(底层const/顶层const)
    4.移植驱动到3.4内核-移植总结
    3.移植驱动到3.4内核-移植DM9000C驱动
    2.移植3.4内核-支持烧写yaffs2,裁剪内核并制作补丁
    Android Support v4、v7、v13、v14、v17的区别和应用场景
    Android利用canvas画各种图形
    ActionBar 自定义布局定义
    android动画坐标定义
    GitHub上最著名的Android播放器开源项目大全
    CardView 简介和使用
  • 原文地址:https://www.cnblogs.com/hanzisearcher/p/2999439.html
Copyright © 2011-2022 走看看