淘客熙熙

主题:【原创】加密汉语之十进制编码初探 -- 老菟

共:💬13 🌺12 新:
全看树展主题 · 分页首页 上页
/ 1
下页 末页
家园 【原创】加密汉语之十进制编码初探

一 问题的提出

与大多数其它文化传统的语言文字不同,汉语、汉字是分离的体系,结合得并不紧密。现代文字多为拼音文字,文字语音基本合一。历史上有古埃及人使用的文字体系,坊间经常将它称为象形文字,其实这是讹传。古埃及的文字虽然有许多图画单元,但这些图画单元并不如同汉字一样用来传递意念,而是语音单位的载体,故究其实质,古埃及文字是拼音文字。同样的理解错误也经常发生在对玛雅文字的理解上。玛雅文字给人的感觉是小方块图画,有象形的表象,其实质却是音素的记录单位。古埃及人用文字记录他们的语音时,只记录声母,不记录韵母,所以现代人可以将古埃及文字简单地用拉丁字母记录,却不知道古埃及人如何发声。玛雅文字则是声母韵母齐全,他们的文字可以直接对译成拉丁式的拼音。

对于语言与文字合一的文化体系而言,给文字编码与给语音编码是一回事。对于中国文化体系而言,因为文字、语言分离,故给汉字编码与给汉语编码其实是不完全相关的实践。对汉字的编码应该诞生于十九世纪末,电报进入中国之后。汉字的电报码是由四个数码组成,所以电报码可以给约一万个汉字建立唯一的映射。计算机文化兴起后,汉字用两个字节或四个字节作为编码的基本单位。两个字节可以形成六万多个编码单位,对于几千个常用汉字而言是绰绰有余。

汉语拼音其实就是对汉语进行编码的方式之一。不过这种形式更类似于拼音文字,而不是编码。若干年前曾遇到一位从德国来华学针灸的洋人。其人汉语无妨,却不识字。不识字如何钻研针灸理论呢?读用汉语拼音印刷的书籍。只是对于习惯于读汉字的读者来说,显然无法从汉语拼音读出个所以然来。

二 汉语的编码

计算机时代的非文盲必定经历过将汉字翻译成二进制代码的过程。市面上无数种汉字编码方案,目标都是二进制代码。这些编码方案并不是汉字的真实编码,大略相当于在一个大的汉字库中对汉字进行检索,是检索码。五笔字之类的编码对单个汉字检索效率很高,但汉字脱离不了词,虽然以拼音检索单个汉字的效率不高,加上词组的语音框架后,在词组库中以拼音的方式检索词的效率,当然也就包括了汉字,比五笔字等似乎更有效率。

汉语拼音作为对汉语进行编码的实践,涉及到拉丁字母而非数码。与汉字的电报码比较,汉语是否也能用数字编码呢?理论上,对汉语进行编码其实比对汉字进行编码要简单得多。汉语有二十来个声母,四十个左右的韵母,只有约四百二十三种基本语音单位。如果用十进制的数字编码,每个语音单位只需要三个数码。比拥有四、五千常用字,至少需要四个十进制数码与之对应的汉字体系,岂不是要简单一些吗?

虽然以电报码的模式对汉语进行编码比较简单,但这种操作有无实用价值是另一回事。用四个数码编码汉字使汉字成为电报时代的语言,故电报码无论有多难,必须是专业人员方能掌握,都不能避免成为历史的选择。有什么现实目的,需要将汉语用几个数字记录呢?

用三个数字编码四、五百个汉语的语音单位有何意义,有无可操作性呢?可以肯定,机械地对每一个汉语语音单位分配一个类似于电报码的数字串,虽然比四个数字的电报码略短,也需要专门的训练,记忆四、五百个对应关系才能掌握,不具备可操作性。

三 数码与拼音

拼音作为汉字检索工具,在只有十个键的小键盘上也可以实现,如只有十个按键的手机也可以输入汉字。一般地,这种小键盘产生的数字串与拼音不存在一一对应的关系,一个小键盘上的数字串对应多个拼音,每个拼音又对应多个汉字,要通过字频或者是词频的排序,提升汉字的输入效率。

据信兔窝电话的按键上印有拉丁字母与数码的关系:

1( )2(A B C)3(D E F)

4(G H I)5(J K L)6(M N O)

7(PQRS)8(T U V)9(WXYZ)

0(OPER)

示例:

汉字/汉语:我们兔子王国的兔子不是和尚。

汉语/PINYIN:WO MEN TU ZI WANG GUO DE TU ZI BU SHI HE SHANG。

PINYIN/数码:96 636 88 94 9264 486 33 88 94 28 744 43 74264。

兔窝的这种数码串作为检索汉字的工具绝无问题,在提示行里选字就得了,却不代表汉语的语音单位。因为据上表的逆操作,有96(WO)636(MEN、NEN)88(TU)94(XI、YI、ZI)9264(WANG、YANG、ZANG)486(GUO、HUO)33(DE)88(TU)94(XI、YI、ZI)28(BU、CU)744(SHI)43(GE、HE)74264(SHANG),

在十三个数字串表述的语音单位中,有七个与多个拼音相对应。

能否通过十个数码与二十六个拉丁字母之间的排列组合,使得小键盘上的数字串与汉语拼音之间形成一一对应的关系呢?当小键盘上的数码能与汉语拼音的字母建立唯一的关联,不但拼音可以转录成数字串,一串数码也就具有了一串拼音的拉丁字母的意义,也就成了唯一的汉语语音单位。汉语可因此转化成十进制模式的汉语。此一操作的成本仅仅只是记忆数码与拉丁字母之间的对应关系。

四 汉语的十进制模式

以数码记录汉语的另一个关键点是汉语是有调的语言,或曰四声,因此数码不但应与拉丁字母有一一对应关系,也必须包括四声。平均起来,每一个数码需代表三个汉语拼音的表述单位。当某数码转换成汉语拼音的记号时,必须是唯一的。

上述目标可以实现吗?很遗憾,似乎是不可能的目标。但最接近的方案是有的,在上百个数字串中,只有数个会产生多个拼音串的方案是有的。这样汉语也就基本上可以用数字串进行记录了。

示例:

汉字/汉语:我们兔子王国的兔子不是和尚。

汉语/PINYIN:WO MEN TU ZI WANG GUO DE TU ZI BU SHI HE SHANG。

(拼音字母-数字对应表)加密

根据本兔家加密的拼音字母-数字对应表:

PINYIN/数码:662 838 555 14 66181 1152 223 555 14 25 7774 773 77 7181。

上述数字串虽然不能投射出唯一的汉字串,却可以唯一的投射成WO MEN TU ZI WANG GUO DE TU ZI BU SHI HE SHANG。如果原始的拼音包含语调,同样可以无歧义地记录,并无歧义地还原成拼音。于是用拼音记录汉语只是方式之一,数字也可以用来记录汉语。如果用拼音记录汉语每个汉字约需4.2个拉丁字母,用数码记录汉语,每个汉字也仅约需4.7个数字。

至于怎样实行此一转换,通过上示例,数码与拉丁字母之间的对应关系已经给了出来。有兴趣的不妨DECODE此一对应表,确认一下汉语的十进制模式是多么简单有效。温馨提示:表中所有拼音字母遵循拼音字母本身的次序,所有的数字遵循数字本身的顺序。

欢迎方家与本兔深入探讨数码汉语的应用价值。

通宝推:铁手,
家园 写的有意思。就是不太明白你用数字编码汉语语音的目的是什么

完全同意汉字汉语的编码,实际上是一种检索码。汉字因为数量多,所以检索也相对复杂,但是冗余小,而汉语的话,因为声母、韵母数量有限,也就是发音的音节有限,所以检索码也会相对简单,但是冗余明显,比如说同音不同字。

对发音编码,可以实现人工合成朗读文字,但是我不太明白为什么要用数字编码汉语语音?是为了在数字键盘上对汉字实现一种语音输入法么?我觉得,相对于单个字的精确编码而言,可能还是对短句、词组的拼音进行识别来得更容易。

如果我没理解错,你是想用数字串对应语音,而语音对应汉字,从而实现数字串编码汉字。如果是这样,似乎存储消耗比现有的两个字节对应一个汉字要大不少。好处是在于,你的编码方式,一个数字串不但对应于汉字,还能提供相应的发音。不过,拼音码已经是这样了。除非这个编码只能在简单的输入界面上实现。

家园 这种操作有这样一些意义:

1,可以在小键盘上实现类似于大键盘的以汉语拼音为检索手段的汉字输入。

2,数字串可以成为汉语传递的媒介。如果是摩尔斯电码仅需要四键就可以表达一个数字,但至少需要五键才能表达一个拉丁字母。汉语可以成为不需要拉丁字母传递的媒介。

3,汉字将自动获得一个数序。汉字字典将不需要用拉丁字母排序。

4,大量的小键盘遥控器可以数字为媒介,实现汉语指令的输入。

5,暂时想到了这样一些用处,也许还有一些意想不到的地方,欢迎构想。

家园 这种操作有这样一些意义:

1,可以在小键盘上实现类似于大键盘的以汉语拼音为检索手段的汉字输入。

2,数字串可以成为汉语传递的媒介。如果是摩尔斯电码仅需要四键就可以表达一个数字,但至少需要五键才能表达一个拉丁字母。汉语可以成为不需要拉丁字母传递的媒介。

3,汉字将自动获得一个数序。汉字字典将不需要用拉丁字母排序。

4,大量的小键盘遥控器可以数字为媒介,实现汉语指令的输入。

5,暂时想到了这样一些用处,也许还有一些意想不到的地方,欢迎构想。

家园 请问去拉丁字母的好处?拉丁字母起码提示读音
家园 没有去拉丁字母的意思,但拼音也

不是一般的阅读对象,在文字体系中也只是媒介。用拼音检索汉字,加上词组的语音框架后,效率非常高,但如果依赖拉丁字母作为媒介,至少需要能表现二十六个字母的大键盘。如果媒介是数字,十个键的小键盘就可以了。小键盘单手即可操作,大键盘非双手不可。

当数码与拼音的拉丁字母对应时,适合于大键盘的词组输入在小键盘上也可以方便实施。

家园 您是说您设计了一个类似五笔+搜狗的很好的输入法?

门槛似乎略高

确实很有趣

家园 早有类似的输入法

参考纵横汉字输入法

家园 不知道纵横法,看起来应该属于笔画体系。笔画

体系不是兔家的目的。数字与拼音的一一对应使得数字串本身具有语音的意义,与将汉字拆解成一串笔画完全是两个体系。

家园 至少军事应用很有意义.
家园 即使在军事领域以外,作为一种通讯工具应该是

很有意义的。因为它不象电报码,需要专门训练。汉语拼音是现代中国人的基本训练,将拼音按本体系encode成数码直接了当。因此汉语(不是汉字)可以以数码的形式交流,当然一旦完全的汉语被传递,相关的汉字也将被有效传递。这与汉字的电报码完全等价却不需要专门训练,这岂不是有益的选择之一吗?

以数码交流汉语比用拼音交流汉语使用比特为载体时较为简单,因为拼音有至少二十六个字母,需要五比特传递一个字母;而数码仅十个,传递一个数码只需四比特。

好处一定有,谜底你揭了吗?

家园 形码差不多都可以小键盘搞定

纵横码当年参加过比赛,小键盘4键,基本上可以说5键打出所有汉字吧?

语音方面,双拼吧,效率如何?手机上的九宫格呢?

个人觉得吧,编码应该以效率为标准,而不应该以形还是音为界限。

恩,楼主对相关信息了解太少,不足以谈这个问题,建议下功夫多多了解后再设计。

家园 吴军的数学之美讲过了你这种编码方法的问题点。建议你参考下

他的意思是说汉字无论搞什么编码都不会快多少。问题不在编码而在语言统计模型。

全看树展主题 · 分页首页 上页
/ 1
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河