淘客熙熙

主题:【原创】为什么汉语是世界上最先进的语言(上) -- 冷酷的哲学

共:💬1516 🌺8640 🌵163 新:
全看分页树展 · 主题 跟帖
家园 看来很多人对那个所谓的汉字信息熵还很不理解

可以先看看这个,最早俺就是从这里基本弄明白的:

外链出处

有一定数学基础的可以看看这个:

外链出处

最后关于中英文翻译后的字数对比:

外链出处

再补充一个英文统计资料,统计样本是网络上的7000多亿单词,可以看到平均每个单词长度为4.79个字母(忽略频率的话是7.6)。

外链出处

摘抄一段说明“熵越低越先进”这种说法的可笑

“结巴文”和“空洞文”——举一个怎样“降低汉字的信息熵”的范例

“结巴文”和“空洞文”——举一个怎样“降低汉字的信息熵”的范例

由于有一些人觉得汉字的信息熵大了一些,或是“很大”,“效率不高”,“给通信带来麻烦”。我们其实可以通过一个“结巴文”运动把汉字的熵降低到1点几!动作呢,一点也不难,只要稍微认得几个字就成。

怎样操作呢?非常简单,就是用一个统一的字来到处填充我们的汉字,比如说,用“一”字。

凡是写文章的时候,有理没理都给它写几百成千个“一”字!比如“你好”,你要写成“你一一一……一一好”;“汉字”,写成“一一……一一一汉一……一字一……一”。这里省掉的省略号各代表一二千个“一”(越多越好啊)。

这个,不会难吧?比起绞尽脑汁地把"啼笑因缘"拼写为"ti23xiao40yin10yuan25",还“建立一个码本”之类要简单得多了,也容易得多!电脑里如果要写许多“一”也有许多简单办法。比如:预先写好一个带“一”的文件(5000个一组或者一二万个一组),写作的时候用拷贝的办法处处粘贴,就统统OK了,不多花什么时间!这样一来,汉字的熵很快就能降低下来,降得比英文的4点几还低得多!

这里有会计算的朋友,一定很容易算得出,在新的“社会节约熵运动”(这是我给“结巴文”的雅名)以后,其他的汉字间的相对频率不变,只有“一”字的频率从原来的百分之一点几迅速提高到百分之九十以上,因此新系统的熵也就降低到1点几,估计英文法文俄文什么的正常文字一般难以达到这么低的熵!先进吧?容易吧?

这样一来,汉字的熵很快就降下来,降得比英文的4点几还低!通过了这个运动把汉字的熵降低到1点几,冯志伟先生一定能大大地提高系统的通信效率吗?以前他说:“如果我国在信息通信网络建设中,在计算机系统上以汉语拼音作为信息的载体,由于拼音字母的熵比汉字的熵小得多,将会大大地提高系统的通信效率,更有利于国际交流。”现在我们这种“节约熵型新文字”——(“结巴文”)熵又比拼音字母的熵小得多了!1点几!嘿。

“结巴文”有没可能实行我就不知道了。它也许有点长,但是,冯先生从没说过怕长,他就是怕熵大,我发明这“结巴文”就能专治“熵大”。

写那么多“一”并没有要求大家照念,凡是看到“一”,一定一定要跳过去(就是偶尔念出来了,大家也会原谅吧),并不浪费说话时间,不过写的时候还就是要多多写!它们看起来不大雅?没关系,我还可以卖一个专门消除“一”或者空格的软件,收到的文章真要读了就把“一”或空格消除掉(当然WORD也有这功能,不过不太高效吧)。

我还知道这里有人响应冯先生的号召多写空格(什么词之间要有空格),那也差不多能起作用,如果结合起来,也可以不写“一”而写空格,不过要多写才能起效果,要能统一行动,大家来一个竞赛,看看谁的文章里“一”最多,或者空格最多!考虑到冯先生发明加空格在前,我还建议加空格,名称也从“结巴文”改为“空洞文”。还可以制定一下规则:名词和名词间(10000个空格),名词和动词间(8000个空格),……等等,这样机器翻译快,什么傻机器全会断词啦!

这,当然只能是一种幽默,冯志伟先生们不知道电脑和通信的基本规则,说来说去尽是些荒唐的话。其实通信的效率和码长多大没有什么大关系——熵大也没什么影响码长的,电脑从发明起始就从没用过那根据熵值制定不等长码的编码方案(倒是压缩文件方面熵是有一些用处的)。

我建议实行的这种“结巴文”中,由于处处是“一”(或者处处是空格的空洞文),熵降低到1点几,甚至可以到0点几,汉字的“平均码长”也可能降低到了1点几(如果他们决定要用不等长码的话)。可是这种熵低得比英文还低的“结巴文”或“空洞文”所带来的肯定是更多的麻烦,首先是传输的过程一定漫长得很,效率低得多!

文本的传输耗费,关键要看的是:整体文件有多少大,而非其熵的大小。

大家不要以为“结巴文”或“空洞文”只是幽默,改进汉字的编码(用拼音加数字代替汉字的“啼笑因缘”法),冯、尹联手发明的(把"啼笑因缘"拼写为"ti23xiao40yin10yuan25"之类)的办法就是和我说的“结巴文”一样和传输效率南辕北辙、背道而驰。

汉字的码长是英文的两倍,可是相应的汉字文本的字数比英文的一半还少得多,也就是说,在总的文本字节数上,汉字决不落后。

英文在通信时并没有占到什么优势。

至于这里有人举ASCII有“用了7位,第8位留作校对用”来证明英文有优势更是叫人笑掉大牙。我不妨再多浪费一点时间在这里掉一下书袋给一点解释它为什么可笑。

不错,一开始ASCII是7位就够了,第8位也确实留给校对过。但是到了1980年前后,美国IBM公司就发现:其实这专门留着的第8位职能实在浪费,于是有了扩展的ASCII,8 位全用上,新增加的那一部分主要是以前认为不需要而后来觉得需要的符号和制表符。这个方案很快就普及了——请注意这是1980年前后的事,也就是说早在冯先生开始学习“熵”以前的多年,美国人早就不把第八位专门留给校对了。这里如果有早期用过汉字经常打印出一堆奇怪符号的朋友就知道,那一些奇怪符号是制表符,它和中文的地址“共享”——如果切换到中文的指令没有生效,系统还把中文汉字作为ASCII看,就打印(或显示)出那个东西,所谓“乱码”。有一些文章闻风捕影地说,这种乱码是因为中文没有第8位校对,错误了,所以产生乱码——企图以此证明汉字的“问题”。其实那是程序里切换指令因为某种原因失效引起的,和校对与否毫无关系,更不是中文特有的。不过由于早期的电脑系统是英文的系统上开发起来的,中文的接口非常混乱(国家没有组织人员开发是一个重要原因),确实使得程序运行有一些缺点。现在早就没这种事情了!

还要鼓吹“用了7位,第8位留作校对用”是英文优点的人们,你们的孤陋寡闻又喜欢胡乱评论真的是叫人不知道怎么和你们辩论!一边还要给你们讲课!


本帖一共被 1 帖 引用 (帖内工具实现)
全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河