LOGO


          關于中文軟件輸入法的發展方向問題

            陸丙甫 bingfu@scf.usc.edu
            謝天蔚 twxie@ucdavis.edu


            一﹒拼音輸入法是根本方向   中文的電腦輸入,曾經有過好幾百個方案,但從原理上說,基本可分成拼音輸入法和 非拼音輸入法兩大類。比起拼音輸入法,非拼音輸入法的種類更是五花八門、百花齊放。 但是現在總的趨勢是拼音輸入法越來越普及,而非拼音的輸入法,除少數捷足先登佔據了 一定市場而現在還有一定群眾基礎的之外,絕大部份都煙消雲散了。這裡讓我們對其中的 原因作一簡單分析,以便明確中文輸入法的發展趨向,更加有效地推動中文輸入法的完 善、改進。   拼音輸入法日益流行的根本原因是不需要專門學習,因而有利于普及。當然對於不熟 悉中文拼音的人,還是要學習一下。但是學習拼音同時就是在學習標準音,而標準音知識 本來是現代教育的基本內容,有著多方面的其他用途(如查詞典,資訊檢閱等等),因此 就不是單純的輸入法學習。其次,拼音輸入法對於原來熟悉西文鍵盤輸入的人來說,也比 較容易適應。最後,拼音輸入對思維的干擾最小,是最自然的輸入法。   非拼音的輸入法,如筆劃輸入等等,要邊輸入邊考慮字的形體等因素,就分散了對創 作內容的注意力。非拼音的輸入法,可以做到字均擊鍵次數很低,但需要死記硬背,不是 一般非專業打字員所樂意和能夠掌握的。一般人學習大陸風行的五筆字輸入法需要三四個 月的時間,打字的速度才達到一分鐘六十個字。如果一段時間不用,很快就會忘記。此 外,在沒有達到高度熟練和成為近乎本能的習慣之前,需要高度思想集中去“檢索”那些 死記住的編碼。這對於與創造性思維同步開展的輸入,即邊構思邊輸入的“想打”,就很 不方便,因為那太干擾創造性思維的流暢進行。相對來說,拼音輸入法是對思維干擾最 少,因為語音是語言必不可少的、最基本形式。因此一般而言,非拼音輸入法比較適合轉 業的打字員,而拼音輸入法則為從事創作者所最樂意選擇的輸入法。在中文電腦越來越普 及而走向一般非轉業用戶的今天,拼音輸入法的市場相對來說就會越來越大。因此研究如 何使拼音輸入法更加方便、更加完善就顯得特別重要。   多數中文輸入法的研究者、開發者把減少擊鍵次數當做首要追求目標。層出不窮、至 今不衰的輸入速度比賽就反映了這種普遍的觀念。但是從非拼音和拼音輸入法的消長趨勢 可以看到,輸入的字均擊鍵次數並不是決定輸入法優劣、勝敗的主要因素。輸入法的是否 自然,即同我們日常處理語言信息的方式是否一致,是一個更重要的考慮因素。舉一個例 子,英語有的速記形式,大多建立在元音字母的省略上,如 fact 寫成 fct,也能猜出是 fact,根據上下文更容易猜出,因為總的說來,英語元音所載負的信息量不多,英語單詞 中不傳達信息的冗余字母是比例很高的。那么,就很容易設計出一種大大減少擊鍵次數的 英語快速電腦輸入法,把那些冗余字母在輸入時省去。但是事實上因為這種快速輸入的形 式同日常見到的英文不同而不自然,一般說來反而不方便。按鍵本來是輕而易舉的動作, 而學習那種快速編碼或想一下那個字母可以省去,倒是多此一舉的額外勞動。也許這對於 要作速記的記者等等是需要的,可惜電腦發明在錄音機之後,這種英文快速電腦輸入法就 完全失去了面世的歷史機會。   合乎自然這個標準也同樣適用于各種不同的拼音輸入法之間的比較。下面我們就來看 看各種不同拼音輸入法這方面的差別。         二﹒如何簡化同音選擇的操作﹕同位顯示和連續選擇   拼音輸入法可以大致分按字輸入和按詞輸入(即連詞輸入)兩大類。發展的趨向是連 詞輸入。按詞輸入的好處,一是比較符合自然口語的節奏,更自然一些ヾ﹔二是可以大幅 度減少同音選擇。   同為連詞輸入法,其中也有許多細節的區分,而這些區分也明顯地影響到輸入的速度 和輕鬆、自然程度。在漢字輸入方面,大部份方案編碼設計者片面地致力于減少擊鍵次數 和避免同音字方面。其實嚴重影響到漢字輸入速度的,並不是擊鍵次數和選擇同音詞本 身,而主要是擊鍵和選擇的方式,是擊鍵和選擇同音詞時的視線在正文、控制行乃至鍵盤 數字鍵間的不斷轉移。   現在北美地區採用拼音連詞輸入法的軟件有﹕下裡巴人(XLBR)、南極星(NJSTAR), 雙橋(TWINBRIDGE)、新天馬(XTM)、星星(Xingxing)和 CWD等。我們拿其中最流行的 前三種中文軟件的按詞拼音輸入法為例,對連詞拼音中的一些差別作簡單的介紹和分析。   下裡巴人的拼音連詞輸入法中必須輸入每個詞的全部字母,或者再加上聲調。以“中 國”一詞為例,下裡巴人需要輸入zhong(1)guo(2),(括號中代表聲調的數目字可以輸入 也可以省略)。當然,輸入了聲調,就減少了同音詞的範圍,也就是節省了選擇的時間。   雙橋只能輸入第一個音節的全部字母加上第二個音節的第一個字母,不能輸入聲調 (最近的 3﹒3 版本可以輸入聲調),所以“中國”就只能輸入zhongg,然後按數字鍵在 “中國、中共、中古、忠告”一系列同音詞中去選擇。其實,雙橋拼音輸入出現的詞已經 不是同音詞,而是“同字母”詞,即第一音節字母和第二音節第一字母相同的詞。   就擊鍵次數來說,當然是雙橋比下裡巴人少,但是雙橋節省第二個音節韻母的代價是 大大增加了“同音”選擇的範圍,是完全得不償失的。同音選擇時視線要從本文轉移到控 制行,由於多數人對數字鍵都不很熟練,在選定了之後再去敲數字鍵時,視線還需要轉移 到鍵盤上的數字鍵。視線不斷轉移的這整個過程,實在是目前阻礙中文輸入速度提高的最 大障礙。   南極星的輸入法則有很大的靈活性,除了聲母是必須的之外,韻母和聲調都是可有可 無的,即“中國”一詞的輸入形式是 zh(ong)(1)g(uo)(2),包括了 zhg, zhongg, zhong1g, zh1g2, zhongguo 等16種輸入形式(不算“中”、“國”分別輸入的按字輸入方式)。當然輸入的語音信息越多,出現的同音詞就越少,就越是能減少視線的來回移動。 如僅僅輸入 zhg,就需要在“這個、中國、中共、主管、主觀”等許多同音詞中去選擇。 zhongg 雖然排除了“這個”但是不能排除“中共”等。而 zhongguo 就可以唯一地得到 “中國”。   一個“中國”有 16 種輸入形式,用戶如何擇而用之呢﹖這不是自找麻煩嗎﹖但事實 上,幾乎所有的用戶都自然而然地選擇用打全聲韻母的方法,因為如上所說,擊鍵比視線 轉移的選擇要省力得多。在聲調的取舍方面,用戶間的差別較大。一般來說,對聲調掌握 較好的用戶傾向也較多地輸入聲調,以減少同音選擇的範圍。但是對聲調不那么敏感的用 戶,如果要考慮一下才能決定是什麼聲調,那就可能還不如打出來選一下。   事實上,在增加擊鍵次數和增減選擇範圍之間有一個如何權衡得失而取最佳處理的問 題。一般說來,單音詞因為同音詞通常較多,除一些常用的如“人、是、來”等常用詞因 頻率特高總是首先轉出來而不需要添加聲調去區別之外,其他最好加聲調。而雙音詞不加 聲調同音現象也不嚴重,所以一般可以不加聲調,除非兩個字都是頻率特高的音節如“時 事”一類。三音節(主要是人名、專名)和四音節詞(基本是成語),即使只輸入聲母也 很少同義詞,一般光輸入聲母就足夠了,當然前提是所輸入的三音詞、四音詞必須已經存 進了連寫詞典。如“南極星”輸入 njx 就足夠了。   除了上述差別之外,下裡巴人和南極星都可以做到“同位顯示”,即輸入的拼音字母 在沒有轉成漢字前,緊跟著前面的漢字顯示在屏幕正文中(而不再是顯示在底下的執行行 中)。在輸完一個詞再按空格鍵後,這些字母就在原處轉換成漢字。這樣,輸入時眼睛就 不需要頻繁地去監視最下面的執行行。除非轉出的漢字不是你所需要的同音詞,才有必要 將視線轉向執行行去選擇、替換同音詞。   最後,南極星還有一個顯著的特點是具有同音詞“連續選擇”的功能﹕容許你在看到 轉出的漢字不合要求時,在不看執行行的情況下,繼續按空格鍵就能在同音詞組中一個一 個地按照順序連續替換下去。就象自動機關槍一樣把詞一個一個“射”出去。這個功能使 用戶的眼睛基本上能做到不離開屏幕正文。由於同音詞的順序是按照首字的使用頻率排列 的,很大程度上也反映了這些詞的使用率,所以多數情況下按一、兩下空格鍵就會出現所 需要的字詞。例如輸入shiji,按空格鍵後屏幕上就出現“時機”,同時在執行行出現了 供選擇的一行同音詞﹕          _實際 1 事跡 2 世紀 3 史記 4 試劑 如果“時機”不是你所需要的,你可以直接根據每個同義詞前的數字按數字鍵選擇替換。 也可以直接按一下空格鍵,“時機”就自動轉換成下一個候選詞“實際”,此時“實際” 從底行中消去,底行成為﹕          _事跡 1 世紀 2 史記 3 試劑 如果還不是,再按一下空格鍵,“實際”就自動換成“事跡”,底行縮短成“_世紀 1 史 記2試劑”。如此下去,一直到所有同音詞都選過消失為止。這就是說,“待選狀態”並 不因為替換過一次就馬上消失,而是繼續保留在那裡,直到你輸入新的字母,待選狀態才 自動消失。   當然,遇到這類可以表示很多漢字的高頻率音節,加上聲調就可以大大減少選擇。如 輸入shi2ji4,就可以直接得到“實際”。   “連續選擇”的開發大大加快了南極星的輸入速度,這是因為按空格鍵是個極其簡單 的操作動作。這比視線在本文、控制行和鍵盤間的忙亂移動要省力得多。我們覺得按五下 空格鍵的勞動強度,不見得超過按一下數字鍵。由於按空格鍵是如此地方便,以致在連續 選擇狀態下,用戶最容易犯的錯誤是“視覺反映趕不上按鍵動作”﹕按空格鍵按得太快而 錯過正確的選擇。如需要的詞是“事跡”輸入 shiji 後,按理說按三下空格鍵就會出現 “事跡”,但用戶往往會按鍵過快,在發現“事跡”已經出現按鍵次數已經超過了三次, 於是只好退回去重來。現在南極星解決這個問題的方法是“回到拼音”﹕容許用戶發現按 鍵超越時再按一下插入鍵(insert),於是屏幕上的那個詞回到拼音狀態,然後按空格鍵 重新按序連續選擇。其實,用戶發現過頭時,往往只超過了一、兩個詞,不必回到拼音重 新來。更方便的處理是“逐詞倒退”﹕每按一次插入鍵就往回退一個詞。   在南極星沒有開發出“連續選擇”功能之前,據一項統計(《語文專刊》第七期謝天 蔚在“南極星拼音連詞輸入法的一個大飛躍”),雙橋的輸入平均速度是每分鐘32字,下 裡巴人是45字,南極星是52字。在南極星開發出連續選擇之後,對結果尚未作過比較統 計,但不少用戶皆反映速度有明顯的提高,感覺也輕鬆自如得多。   總的說來,南極星的輸入法已經接近我們多年來理想中的中文拼音輸入法了。這種輸 入法效率類似於拼音文字的輸入。如剛纔講的“總的說來,南極星……拼音文字的輸入” 這段話,我們只要鍵入 zongde shuolai, nanjixing yijing jiejin benren duonianlai lixiang zhong d zhongwen ruanjian l. zhezhong shurufa d xiaoluu leisi yu pinyin wenzi d shuru.”。完全不用聲調,利用適當的分詞連寫法就可以自動都逐詞正確轉成漢 字。當然在此基礎上還可以進一步簡化,如“南極星、輸入法”分別輸入njx、shrf 也可 以正確轉出來。不過這是錦上添花的問題了。           三﹒關于整句轉換和智能輸入法   前面說過的“總的說來,南極星已經……”這個句子的出字過程是“逐詞”推進的, 即每輸完一個詞後按空格鍵或標點後就自動專成漢字。南極星和另外一些軟件(如下裡巴 人、新天馬和國內的 Insun 等)也可以做到輸完整個句子後才一起轉漢字(稱為“整句 轉換”或“整句輸入”)。   整句轉換的好處是軟件的智能能自動根據較大片斷的上下文幫助進行同音詞選擇,省 去了輸入者的選擇操作。許多人認為整句轉換是將來的發展方向,一定可以提高輸入速 度。其實未必。整句轉換的缺點是,一旦有錯字(打字時出錯是難免的),要把光標移回 去修改就很麻煩。不但操作麻煩(要將光標長距離前移),更重要的是思維過程麻煩﹕要 重新檢查已經從短時記憶中退出的內容,是一種重複勞動。所以還不如按詞輸入時“隨時 地、同時地、一次性”糾正。   即使軟件智能能夠做到出字基本都正確,整句輸入後一起出漢字,也有反饋太滯後而 不合寫作心理的短處。一個說話者同時也總是自己話語的聽者,需要及時地對自己正在進 行的表達進行“同步審查”(monitor)。如果說話者聽不到自己的聲音,那是非常彆扭 的。同樣,寫文章的人也同時是自己文章語句的第一個讀者。況且寫文章還不同于隨便交 談,在組織、表達方面方面總需要多斟酌斟酌,需要更多的同步審查。按詞分寫,按詞反 饋便于這種同步審查的要求,比較符合語言生成的自然節奏。整句輸入時一句句子輸完後 轉成漢字是要再看一邊,此時前面部份已經從即時記憶中推出,因此無疑于要重新撿起, 往往成為一種多余的重複勞動。看來整句輸入轉換並不是輸入的理想方向,它忽視了一些 文字處理的心理問題。   如果說“逐詞轉出”比“逐句轉出”更符合多數用戶的習慣的話,那么,智能型中文 軟件首先要解決的是根據上文的自動選擇,而不是同時根據上下文的自動選擇。事實上前 者也比較容易首先實現。這種“逐詞選擇”就是在每輸入一個詞後就可以確定出該詞以後 可能出現的詞的範圍。例如我們要輸入這樣一個句子“中文電腦的使用現在越來越普遍”, 當輸入到“電腦”這個詞後,鍵入 shiyong 可能出現“實用、使用、適用、食用”這幾個 詞。如果電腦軟件能自動排除“食用”這個詞,那就是一個很了不起的進步。研究人工智 能的工作者是否能先朝這個比較現實的方向走一步呢﹖   其次,“變形詞”的識別也屬于“逐詞選擇”應該解決的問題。拼音輸入的好處之一 是對思維干擾最小。而要使這種干擾減少到最小程度,還必須使輸入的節奏方式和口語節 奏方式儘量一致。例如口語中“聽得見、聽不見,看得透、看不透”各自是一個節奏單 位,寫起來也應該按 tingdejian, tingbujian, kandetou, kanbutou 這樣的自然節奏, 而不是 ting de jian, ting bu jian, kan de tou, kan bu tou 這樣七零八碎的節奏劃 分。這不僅可以減少空格鍵的使用,更重要的是可以和使輸入節奏和語言的自然節奏保持 最大程度的一致。這樣的話,“聽得見、聽不見,看得透、看不透”和“聽見,看透”一 樣,都各自算一個詞。但這些“變形詞”也算作詞收進詞典的話,似乎是收不勝受的。如 果把這樣的程序編進軟件,使軟件看到 tingbujian,tingdejian 就自動識別出其“原形” tingjian,並且知道插入的“變形成份”是“不、得”。這樣的話,可以大大提高輸入效率 而不必大幅度增加詞典容量。做到這一點應該是不難的。   以上談了一些對當前中文軟件發展方向的看法。當然,中文輸入還有許多細節問題, 如上文修改、增添“開放詞典”的方便程度,用戶縮寫字典的開發等。例如電腦詞典中詞 項的選擇問題,對於提高輸入速度也和選擇麻煩也至關重要。目前的中文軟件設計者在制 定連詞拼音詞典時大都以《現代漢語詞典》為基礎。因此同音詞出現的比較多。實際上, 每個人寫作的時候用到的詞大大少於《現代漢語詞典》中的詞。以 gongshi 為例,在南極 星輸入 gongshi 以後會出現﹕工事、工時、公式、公室、共事、共識、攻勢等詞。仔細分 析起來,很少有人會用到“工事、公室”這兩個詞。“工時”和“共事”這兩個詞恐怕也 很少使用。如果電腦詞典只收入較少的最常用詞,那么同音詞的量也會減少。這就需要我 們認真仔細地對漢語的詞頻從使用電腦的角度來作新的分析和考慮。此外,每個人的寫作 風格不同,使用的詞彙量也不同,因此中文軟件最好只提供最基本的詞彙,然後將詞彙增 減的“權力”交給用戶。當然,南極星、下裡巴人、雙橋都有不同的方法增減詞彙,但方 便程度各不相同。就筆者所了解的來說,南極星在這些方面,也都開發得比較成功。因 此,它已成為目前世界範圍中文電腦網絡中最常用的軟件之一。 附註ヾ   關于輸入合乎自然語言節奏的重要性,可以舉一個例子。現行漢語拼音的聲調是標在 主要元音上方的。在目前的電腦拼音輸入中,都是用數字去代替調號的。按理說,標調數 字也可以放在主要元音後面,如“真正”就可拼為 zhe1nzhe4ng, 但是實際上現在沒有人 這樣拼寫,因為這樣打斷了音節和韻母的整體性,不合語言結構的節奏心理。因此許毅先 生建議今後把上方的標調也放在音節中最後一個字母上方(“論漢語拼音文字應該全部標 調兼論一種改進的拼音標調法”,《語文專刊》第五期,1993年3月)。這種處理不僅對於 電腦輸入是方便的,而且可以推廣到正式的標調形式。如果把上加調號置于音節的末一字 母上方,這樣一來可以同電腦拼音寫法一致,二來可以使音節法分界更明顯,便于拼音文 字的直接閱讀。

This HTML version is converted by Hongbo Ni - Author of NJSTAR Chinese Word Processor