淘客熙熙

主题:【原创】加密汉语之十进制编码初探 -- 老菟

共:💬13 🌺12 新:
全看分页树展 · 主题
家园 【原创】加密汉语之十进制编码初探

一 问题的提出

与大多数其它文化传统的语言文字不同,汉语、汉字是分离的体系,结合得并不紧密。现代文字多为拼音文字,文字语音基本合一。历史上有古埃及人使用的文字体系,坊间经常将它称为象形文字,其实这是讹传。古埃及的文字虽然有许多图画单元,但这些图画单元并不如同汉字一样用来传递意念,而是语音单位的载体,故究其实质,古埃及文字是拼音文字。同样的理解错误也经常发生在对玛雅文字的理解上。玛雅文字给人的感觉是小方块图画,有象形的表象,其实质却是音素的记录单位。古埃及人用文字记录他们的语音时,只记录声母,不记录韵母,所以现代人可以将古埃及文字简单地用拉丁字母记录,却不知道古埃及人如何发声。玛雅文字则是声母韵母齐全,他们的文字可以直接对译成拉丁式的拼音。

对于语言与文字合一的文化体系而言,给文字编码与给语音编码是一回事。对于中国文化体系而言,因为文字、语言分离,故给汉字编码与给汉语编码其实是不完全相关的实践。对汉字的编码应该诞生于十九世纪末,电报进入中国之后。汉字的电报码是由四个数码组成,所以电报码可以给约一万个汉字建立唯一的映射。计算机文化兴起后,汉字用两个字节或四个字节作为编码的基本单位。两个字节可以形成六万多个编码单位,对于几千个常用汉字而言是绰绰有余。

汉语拼音其实就是对汉语进行编码的方式之一。不过这种形式更类似于拼音文字,而不是编码。若干年前曾遇到一位从德国来华学针灸的洋人。其人汉语无妨,却不识字。不识字如何钻研针灸理论呢?读用汉语拼音印刷的书籍。只是对于习惯于读汉字的读者来说,显然无法从汉语拼音读出个所以然来。

二 汉语的编码

计算机时代的非文盲必定经历过将汉字翻译成二进制代码的过程。市面上无数种汉字编码方案,目标都是二进制代码。这些编码方案并不是汉字的真实编码,大略相当于在一个大的汉字库中对汉字进行检索,是检索码。五笔字之类的编码对单个汉字检索效率很高,但汉字脱离不了词,虽然以拼音检索单个汉字的效率不高,加上词组的语音框架后,在词组库中以拼音的方式检索词的效率,当然也就包括了汉字,比五笔字等似乎更有效率。

汉语拼音作为对汉语进行编码的实践,涉及到拉丁字母而非数码。与汉字的电报码比较,汉语是否也能用数字编码呢?理论上,对汉语进行编码其实比对汉字进行编码要简单得多。汉语有二十来个声母,四十个左右的韵母,只有约四百二十三种基本语音单位。如果用十进制的数字编码,每个语音单位只需要三个数码。比拥有四、五千常用字,至少需要四个十进制数码与之对应的汉字体系,岂不是要简单一些吗?

虽然以电报码的模式对汉语进行编码比较简单,但这种操作有无实用价值是另一回事。用四个数码编码汉字使汉字成为电报时代的语言,故电报码无论有多难,必须是专业人员方能掌握,都不能避免成为历史的选择。有什么现实目的,需要将汉语用几个数字记录呢?

用三个数字编码四、五百个汉语的语音单位有何意义,有无可操作性呢?可以肯定,机械地对每一个汉语语音单位分配一个类似于电报码的数字串,虽然比四个数字的电报码略短,也需要专门的训练,记忆四、五百个对应关系才能掌握,不具备可操作性。

三 数码与拼音

拼音作为汉字检索工具,在只有十个键的小键盘上也可以实现,如只有十个按键的手机也可以输入汉字。一般地,这种小键盘产生的数字串与拼音不存在一一对应的关系,一个小键盘上的数字串对应多个拼音,每个拼音又对应多个汉字,要通过字频或者是词频的排序,提升汉字的输入效率。

据信兔窝电话的按键上印有拉丁字母与数码的关系:

1( )2(A B C)3(D E F)

4(G H I)5(J K L)6(M N O)

7(PQRS)8(T U V)9(WXYZ)

0(OPER)

示例:

汉字/汉语:我们兔子王国的兔子不是和尚。

汉语/PINYIN:WO MEN TU ZI WANG GUO DE TU ZI BU SHI HE SHANG。

PINYIN/数码:96 636 88 94 9264 486 33 88 94 28 744 43 74264。

兔窝的这种数码串作为检索汉字的工具绝无问题,在提示行里选字就得了,却不代表汉语的语音单位。因为据上表的逆操作,有96(WO)636(MEN、NEN)88(TU)94(XI、YI、ZI)9264(WANG、YANG、ZANG)486(GUO、HUO)33(DE)88(TU)94(XI、YI、ZI)28(BU、CU)744(SHI)43(GE、HE)74264(SHANG),

在十三个数字串表述的语音单位中,有七个与多个拼音相对应。

能否通过十个数码与二十六个拉丁字母之间的排列组合,使得小键盘上的数字串与汉语拼音之间形成一一对应的关系呢?当小键盘上的数码能与汉语拼音的字母建立唯一的关联,不但拼音可以转录成数字串,一串数码也就具有了一串拼音的拉丁字母的意义,也就成了唯一的汉语语音单位。汉语可因此转化成十进制模式的汉语。此一操作的成本仅仅只是记忆数码与拉丁字母之间的对应关系。

四 汉语的十进制模式

以数码记录汉语的另一个关键点是汉语是有调的语言,或曰四声,因此数码不但应与拉丁字母有一一对应关系,也必须包括四声。平均起来,每一个数码需代表三个汉语拼音的表述单位。当某数码转换成汉语拼音的记号时,必须是唯一的。

上述目标可以实现吗?很遗憾,似乎是不可能的目标。但最接近的方案是有的,在上百个数字串中,只有数个会产生多个拼音串的方案是有的。这样汉语也就基本上可以用数字串进行记录了。

示例:

汉字/汉语:我们兔子王国的兔子不是和尚。

汉语/PINYIN:WO MEN TU ZI WANG GUO DE TU ZI BU SHI HE SHANG。

(拼音字母-数字对应表)加密

根据本兔家加密的拼音字母-数字对应表:

PINYIN/数码:662 838 555 14 66181 1152 223 555 14 25 7774 773 77 7181。

上述数字串虽然不能投射出唯一的汉字串,却可以唯一的投射成WO MEN TU ZI WANG GUO DE TU ZI BU SHI HE SHANG。如果原始的拼音包含语调,同样可以无歧义地记录,并无歧义地还原成拼音。于是用拼音记录汉语只是方式之一,数字也可以用来记录汉语。如果用拼音记录汉语每个汉字约需4.2个拉丁字母,用数码记录汉语,每个汉字也仅约需4.7个数字。

至于怎样实行此一转换,通过上示例,数码与拉丁字母之间的对应关系已经给了出来。有兴趣的不妨DECODE此一对应表,确认一下汉语的十进制模式是多么简单有效。温馨提示:表中所有拼音字母遵循拼音字母本身的次序,所有的数字遵循数字本身的顺序。

欢迎方家与本兔深入探讨数码汉语的应用价值。

通宝推:铁手,
全看分页树展 · 主题


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河