LOGO


          关于中文软件输入法的发展方向问题

            陆丙甫 bingfu@scf.usc.edu
            谢天蔚 twxie@ucdavis.edu


            一.拼音输入法是根本方向   中文的电脑输入,曾经有过好几百个方案,但从原理上说,基本可分成拼音输入法和 非拼音输入法两大类。比起拼音输入法,非拼音输入法的种类更是五花八门、百花齐放。 但是现在总的趋势是拼音输入法越来越普及,而非拼音的输入法,除少数捷足先登占据了 一定市场而现在还有一定群众基础的之外,绝大部份都烟消云散了。这里让我们对其中的 原因作一简单分析,以便明确中文输入法的发展趋向,更加有效地推动中文输入法的完 善、改进。   拼音输入法日益流行的根本原因是不需要专门学习,因而有利于普及。当然对於不熟 悉中文拼音的人,还是要学习一下。但是学习拼音同时就是在学习标准音,而标准音知识 本来是现代教育的基本内容,有著多方面的其他用途(如查词典,资讯检阅等等),因此 就不是单纯的输入法学习。其次,拼音输入法对於原来熟悉西文键盘输入的人来说,也比 较容易适应。最后,拼音输入对思维的干扰最小,是最自然的输入法。   非拼音的输入法,如笔划输入等等,要边输入边考虑字的形体等因素,就分散了对创 作内容的注意力。非拼音的输入法,可以做到字均击键次数很低,但需要死记硬背,不是 一般非专业打字员所乐意和能够掌握的。一般人学习大陆风行的五笔字输入法需要三四个 月的时间,打字的速度才达到一分钟六十个字。如果一段时间不用,很快就会忘记。此 外,在没有达到高度熟练和成为近乎本能的习惯之前,需要高度思想集中去“检索”那些 死记住的编码。这对於与创造性思维同步开展的输入,即边构思边输入的“想打”,就很 不方便,因为那太干扰创造性思维的流畅进行。相对来说,拼音输入法是对思维干扰最 少,因为语音是语言必不可少的、最基本形式。因此一般而言,非拼音输入法比较适合转 业的打字员,而拼音输入法则为从事创作者所最乐意选择的输入法。在中文电脑越来越普 及而走向一般非转业用户的今天,拼音输入法的市场相对来说就会越来越大。因此研究如 何使拼音输入法更加方便、更加完善就显得特别重要。   多数中文输入法的研究者、开发者把减少击键次数当做首要追求目标。层出不穷、至 今不衰的输入速度比赛就反映了这种普遍的观念。但是从非拼音和拼音输入法的消长趋势 可以看到,输入的字均击键次数并不是决定输入法优劣、胜败的主要因素。输入法的是否 自然,即同我们日常处理语言信息的方式是否一致,是一个更重要的考虑因素。举一个例 子,英语有的速记形式,大多建立在元音字母的省略上,如 fact 写成 fct,也能猜出是 fact,根据上下文更容易猜出,因为总的说来,英语元音所载负的信息量不多,英语单词 中不传达信息的冗余字母是比例很高的。那么,就很容易设计出一种大大减少击键次数的 英语快速电脑输入法,把那些冗余字母在输入时省去。但是事实上因为这种快速输入的形 式同日常见到的英文不同而不自然,一般说来反而不方便。按键本来是轻而易举的动作, 而学习那种快速编码或想一下那个字母可以省去,倒是多此一举的额外劳动。也许这对於 要作速记的记者等等是需要的,可惜电脑发明在录音机之后,这种英文快速电脑输入法就 完全失去了面世的历史机会。   合乎自然这个标准也同样适用于各种不同的拼音输入法之间的比较。下面我们就来看 看各种不同拼音输入法这方面的差别。         二.如何简化同音选择的操作:同位显示和连续选择   拼音输入法可以大致分按字输入和按词输入(即连词输入)两大类。发展的趋向是连 词输入。按词输入的好处,一是比较符合自然口语的节奏,更自然一些①;二是可以大幅 度减少同音选择。   同为连词输入法,其中也有许多细节的区分,而这些区分也明显地影响到输入的速度 和轻松、自然程度。在汉字输入方面,大部份方案编码设计者片面地致力于减少击键次数 和避免同音字方面。其实严重影响到汉字输入速度的,并不是击键次数和选择同音词本 身,而主要是击键和选择的方式,是击键和选择同音词时的视线在正文、控制行乃至键盘 数字键间的不断转移。   现在北美地区采用拼音连词输入法的软件有:下里巴人(XLBR)、南极星(NJSTAR), 双桥(TWINBRIDGE)、新天马(XTM)、星星(Xingxing)和 CWD等。我们拿其中最流行的 前三种中文软件的按词拼音输入法为例,对连词拼音中的一些差别作简单的介绍和分析。   下里巴人的拼音连词输入法中必须输入每个词的全部字母,或者再加上声调。以“中 国”一词为例,下里巴人需要输入zhong(1)guo(2),(括号中代表声调的数目字可以输入 也可以省略)。当然,输入了声调,就减少了同音词的范围,也就是节省了选择的时间。   双桥只能输入第一个音节的全部字母加上第二个音节的第一个字母,不能输入声调 (最近的 3.3 版本可以输入声调),所以“中国”就只能输入zhongg,然后按数字键在 “中国、中共、中古、忠告”一系列同音词中去选择。其实,双桥拼音输入出现的词已经 不是同音词,而是“同字母”词,即第一音节字母和第二音节第一字母相同的词。   就击键次数来说,当然是双桥比下里巴人少,但是双桥节省第二个音节韵母的代价是 大大增加了“同音”选择的范围,是完全得不偿失的。同音选择时视线要从本文转移到控 制行,由於多数人对数字键都不很熟练,在选定了之后再去敲数字键时,视线还需要转移 到键盘上的数字键。视线不断转移的这整个过程,实在是目前阻碍中文输入速度提高的最 大障碍。   南极星的输入法则有很大的灵活性,除了声母是必须的之外,韵母和声调都是可有可 无的,即“中国”一词的输入形式是 zh(ong)(1)g(uo)(2),包括了 zhg, zhongg, zhong1g, zh1g2, zhongguo 等16种输入形式(不算“中”、“国”分别输入的按字输入方式)。当然输入的语音信息越多,出现的同音词就越少,就越是能减少视线的来回移动。 如仅仅输入 zhg,就需要在“这个、中国、中共、主管、主观”等许多同音词中去选择。 zhongg 虽然排除了“这个”但是不能排除“中共”等。而 zhongguo 就可以唯一地得到 “中国”。   一个“中国”有 16 种输入形式,用户如何择而用之呢?这不是自找麻烦吗?但事实 上,几乎所有的用户都自然而然地选择用打全声韵母的方法,因为如上所说,击键比视线 转移的选择要省力得多。在声调的取舍方面,用户间的差别较大。一般来说,对声调掌握 较好的用户倾向也较多地输入声调,以减少同音选择的范围。但是对声调不那么敏感的用 户,如果要考虑一下才能决定是什麽声调,那就可能还不如打出来选一下。   事实上,在增加击键次数和增减选择范围之间有一个如何权衡得失而取最佳处理的问 题。一般说来,单音词因为同音词通常较多,除一些常用的如“人、是、来”等常用词因 频率特高总是首先转出来而不需要添加声调去区别之外,其他最好加声调。而双音词不加 声调同音现象也不严重,所以一般可以不加声调,除非两个字都是频率特高的音节如“时 事”一类。三音节(主要是人名、专名)和四音节词(基本是成语),即使只输入声母也 很少同义词,一般光输入声母就足够了,当然前提是所输入的三音词、四音词必须已经存 进了连写词典。如“南极星”输入 njx 就足够了。   除了上述差别之外,下里巴人和南极星都可以做到“同位显示”,即输入的拼音字母 在没有转成汉字前,紧跟著前面的汉字显示在屏幕正文中(而不再是显示在底下的执行行 中)。在输完一个词再按空格键后,这些字母就在原处转换成汉字。这样,输入时眼睛就 不需要频繁地去监视最下面的执行行。除非转出的汉字不是你所需要的同音词,才有必要 将视线转向执行行去选择、替换同音词。   最后,南极星还有一个显著的特点是具有同音词“连续选择”的功能:容许你在看到 转出的汉字不合要求时,在不看执行行的情况下,继续按空格键就能在同音词组中一个一 个地按照顺序连续替换下去。就象自动机关枪一样把词一个一个“射”出去。这个功能使 用户的眼睛基本上能做到不离开屏幕正文。由於同音词的顺序是按照首字的使用频率排列 的,很大程度上也反映了这些词的使用率,所以多数情况下按一、两下空格键就会出现所 需要的字词。例如输入shiji,按空格键后屏幕上就出现“时机”,同时在执行行出现了 供选择的一行同音词:          _实际 1 事迹 2 世纪 3 史记 4 试剂 如果“时机”不是你所需要的,你可以直接根据每个同义词前的数字按数字键选择替换。 也可以直接按一下空格键,“时机”就自动转换成下一个候选词“实际”,此时“实际” 从底行中消去,底行成为:          _事迹 1 世纪 2 史记 3 试剂 如果还不是,再按一下空格键,“实际”就自动换成“事迹”,底行缩短成“_世纪 1 史 记2试剂”。如此下去,一直到所有同音词都选过消失为止。这就是说,“待选状态”并 不因为替换过一次就马上消失,而是继续保留在那里,直到你输入新的字母,待选状态才 自动消失。   当然,遇到这类可以表示很多汉字的高频率音节,加上声调就可以大大减少选择。如 输入shi2ji4,就可以直接得到“实际”。   “连续选择”的开发大大加快了南极星的输入速度,这是因为按空格键是个极其简单 的操作动作。这比视线在本文、控制行和键盘间的忙乱移动要省力得多。我们觉得按五下 空格键的劳动强度,不见得超过按一下数字键。由於按空格键是如此地方便,以致在连续 选择状态下,用户最容易犯的错误是“视觉反映赶不上按键动作”:按空格键按得太快而 错过正确的选择。如需要的词是“事迹”输入 shiji 后,按理说按三下空格键就会出现 “事迹”,但用户往往会按键过快,在发现“事迹”已经出现按键次数已经超过了三次, 於是只好退回去重来。现在南极星解决这个问题的方法是“回到拼音”:容许用户发现按 键超越时再按一下插入键(insert),於是屏幕上的那个词回到拼音状态,然后按空格键 重新按序连续选择。其实,用户发现过头时,往往只超过了一、两个词,不必回到拼音重 新来。更方便的处理是“逐词倒退”:每按一次插入键就往回退一个词。   在南极星没有开发出“连续选择”功能之前,据一项统计(《语文专刊》第七期谢天 蔚在“南极星拼音连词输入法的一个大飞跃”),双桥的输入平均速度是每分钟32字,下 里巴人是45字,南极星是52字。在南极星开发出连续选择之后,对结果尚未作过比较统 计,但不少用户皆反映速度有明显的提高,感觉也轻松自如得多。   总的说来,南极星的输入法已经接近我们多年来理想中的中文拼音输入法了。这种输 入法效率类似於拼音文字的输入。如刚才讲的“总的说来,南极星……拼音文字的输入” 这段话,我们只要键入 zongde shuolai, nanjixing yijing jiejin benren duonianlai lixiang zhong d zhongwen ruanjian l. zhezhong shurufa d xiaoluu leisi yu pinyin wenzi d shuru.”。完全不用声调,利用适当的分词连写法就可以自动都逐词正确转成汉 字。当然在此基础上还可以进一步简化,如“南极星、输入法”分别输入njx、shrf 也可 以正确转出来。不过这是锦上添花的问题了。           三.关于整句转换和智能输入法   前面说过的“总的说来,南极星已经……”这个句子的出字过程是“逐词”推进的, 即每输完一个词后按空格键或标点后就自动专成汉字。南极星和另外一些软件(如下里巴 人、新天马和国内的 Insun 等)也可以做到输完整个句子后才一起转汉字(称为“整句 转换”或“整句输入”)。   整句转换的好处是软件的智能能自动根据较大片断的上下文帮助进行同音词选择,省 去了输入者的选择操作。许多人认为整句转换是将来的发展方向,一定可以提高输入速 度。其实未必。整句转换的缺点是,一旦有错字(打字时出错是难免的),要把光标移回 去修改就很麻烦。不但操作麻烦(要将光标长距离前移),更重要的是思维过程麻烦:要 重新检查已经从短时记忆中退出的内容,是一种重复劳动。所以还不如按词输入时“随时 地、同时地、一次性”纠正。   即使软件智能能够做到出字基本都正确,整句输入后一起出汉字,也有反馈太滞后而 不合写作心理的短处。一个说话者同时也总是自己话语的听者,需要及时地对自己正在进 行的表达进行“同步审查”(monitor)。如果说话者听不到自己的声音,那是非常别扭 的。同样,写文章的人也同时是自己文章语句的第一个读者。况且写文章还不同于随便交 谈,在组织、表达方面方面总需要多斟酌斟酌,需要更多的同步审查。按词分写,按词反 馈便于这种同步审查的要求,比较符合语言生成的自然节奏。整句输入时一句句子输完后 转成汉字是要再看一边,此时前面部份已经从即时记忆中推出,因此无疑于要重新捡起, 往往成为一种多余的重复劳动。看来整句输入转换并不是输入的理想方向,它忽视了一些 文字处理的心理问题。   如果说“逐词转出”比“逐句转出”更符合多数用户的习惯的话,那么,智能型中文 软件首先要解决的是根据上文的自动选择,而不是同时根据上下文的自动选择。事实上前 者也比较容易首先实现。这种“逐词选择”就是在每输入一个词后就可以确定出该词以后 可能出现的词的范围。例如我们要输入这样一个句子“中文电脑的使用现在越来越普遍”, 当输入到“电脑”这个词后,键入 shiyong 可能出现“实用、使用、适用、食用”这几个 词。如果电脑软件能自动排除“食用”这个词,那就是一个很了不起的进步。研究人工智 能的工作者是否能先朝这个比较现实的方向走一步呢?   其次,“变形词”的识别也属于“逐词选择”应该解决的问题。拼音输入的好处之一 是对思维干扰最小。而要使这种干扰减少到最小程度,还必须使输入的节奏方式和口语节 奏方式尽量一致。例如口语中“听得见、听不见,看得透、看不透”各自是一个节奏单 位,写起来也应该按 tingdejian, tingbujian, kandetou, kanbutou 这样的自然节奏, 而不是 ting de jian, ting bu jian, kan de tou, kan bu tou 这样七零八碎的节奏划 分。这不仅可以减少空格键的使用,更重要的是可以和使输入节奏和语言的自然节奏保持 最大程度的一致。这样的话,“听得见、听不见,看得透、看不透”和“听见,看透”一 样,都各自算一个词。但这些“变形词”也算作词收进词典的话,似乎是收不胜受的。如 果把这样的程序编进软件,使软件看到 tingbujian,tingdejian 就自动识别出其“原形” tingjian,并且知道插入的“变形成份”是“不、得”。这样的话,可以大大提高输入效率 而不必大幅度增加词典容量。做到这一点应该是不难的。   以上谈了一些对当前中文软件发展方向的看法。当然,中文输入还有许多细节问题, 如上文修改、增添“开放词典”的方便程度,用户缩写字典的开发等。例如电脑词典中词 项的选择问题,对於提高输入速度也和选择麻烦也至关重要。目前的中文软件设计者在制 定连词拼音词典时大都以《现代汉语词典》为基础。因此同音词出现的比较多。实际上, 每个人写作的时候用到的词大大少於《现代汉语词典》中的词。以 gongshi 为例,在南极 星输入 gongshi 以后会出现:工事、工时、公式、公室、共事、共识、攻势等词。仔细分 析起来,很少有人会用到“工事、公室”这两个词。“工时”和“共事”这两个词恐怕也 很少使用。如果电脑词典只收入较少的最常用词,那么同音词的量也会减少。这就需要我 们认真仔细地对汉语的词频从使用电脑的角度来作新的分析和考虑。此外,每个人的写作 风格不同,使用的词汇量也不同,因此中文软件最好只提供最基本的词汇,然后将词汇增 减的“权力”交给用户。当然,南极星、下里巴人、双桥都有不同的方法增减词汇,但方 便程度各不相同。就笔者所了解的来说,南极星在这些方面,也都开发得比较成功。因 此,它已成为目前世界范围中文电脑网络中最常用的软件之一。 附注①   关于输入合乎自然语言节奏的重要性,可以举一个例子。现行汉语拼音的声调是标在 主要元音上方的。在目前的电脑拼音输入中,都是用数字去代替调号的。按理说,标调数 字也可以放在主要元音后面,如“真正”就可拼为 zhe1nzhe4ng, 但是实际上现在没有人 这样拼写,因为这样打断了音节和韵母的整体性,不合语言结构的节奏心理。因此许毅先 生建议今后把上方的标调也放在音节中最后一个字母上方(“论汉语拼音文字应该全部标 调兼论一种改进的拼音标调法”,《语文专刊》第五期,1993年3月)。这种处理不仅对於 电脑输入是方便的,而且可以推广到正式的标调形式。如果把上加调号置于音节的末一字 母上方,这样一来可以同电脑拼音写法一致,二来可以使音节法分界更明显,便于拼音文 字的直接阅读。

This HTML version is converted by Hongbo Ni - Author of NJSTAR Chinese Word Processor