語言差異及跨語言資訊檢索問題之探討

第二章文獻探討

第一節語言差異及跨語言資訊檢索問題之探討

隨著網際網路與全球通訊的發展已打破空間的距離，形成新的傳播資訊型態，而透過網際網路，我們能輕易獲取遠在地球另一端的資訊，既豐富又即時。

依據Ethnologue的統計，全世界現存的語言數目高達6,909種。現實使用語言人口數，前幾名依次為中文、西班牙文、英文、阿拉伯文、印度文、孟加拉文、葡萄牙文、俄文、日文及德文。又根據Miniwatts International（2011）統計，在網路上最常使用的語言，英文排在第一位，而中文、西班牙文分居二、三位，其餘詳見表2-1。

表2-1 網際網路前 10 大使用語言

Top Ten Languages Used in the Web

( Number of Internet Users by Language )

TOP TEN LANGUAGES

IN THE INTERNET

Internet Users by Language

Internet Penetration by Language

Growth in Internet (2000 - 2011)

Internet Users

% of Total

World Population

for this Language (2011 Estimate)

English 565,004,126 43.4 % 301.4 % 26.8 % 1,302,275,670 Chinese 509,965,013 37.2 % 1,478.7 % 24.2 % 1,372,226,042 Spanish 164,968,742 39.0 % 807.4 % 7.8 % 423,085,806 Japanese 99,182,000 78.4 % 110.7 % 4.7 % 126,475,664 Portuguese 82,586,600 32.5 % 990.1 % 3.9 % 253,947,594

German 75,422,674 79.5 % 174.1 % 3.6 % 94,842,656

Arabic 65,365,400 18.8 % 2,501.2 % 3.3 % 347,002,991 French 59,779,525 17.2 % 398.2 % 3.0 % 347,932,305 Russian 59,700,000 42.8 % 1,825.8 % 3.0 % 139,390,205 Korean 39,440,000 55.2 % 107.1 % 2.0 % 71,393,343 TOP 10

LANGUAGES 1,615,957,333 36.4 % 421.2 % 82.2 % 4,442,056,069 Rest of the

Languages 350,557,483 14.6 % 588.5 % 17.8 % 2,403,553,891

WORLD

TOTAL 2,099,926,965 30.3 % 481.7 % 100.0 % 6,930,055,154

資料來源：http://www.internetworldstats.com/stats7.htm （updated for May 31 2011）

由表2-1可知，網路上的資訊是由多種語言所組成的。因此，多語性是網路社會的重要特徵之一，如何將網路資源，介紹給不同語言的使用者，同時吸收其他語言所呈現的資訊，都是資訊國際化不能忽略的重要課題（陳信希，2002）。

而多語言處理的應用相當廣，尤其在許多數位圖書館計畫中都被列為關鍵技術之一。

一、多國語言問題

在進入21世紀後，因為我們正處於一個多語網路的時代，所以都會直接或間接與多語言資訊檢索打交道。不論對於政治社會或是經濟發展，多語資訊處理技術無疑是個重要的研究領域。

從政治社會上來說，語言對於人類思想交流的重要作用是毋庸置疑的。為了克服語言的障礙，曾經有人提出使用人類通用語言（lingua franca）來替代各種不同語言的想法。但是，這樣的想法是很難實現的，即使有了這樣的通用語言，

它也代替不了各種不同的民族語言。因為語言是民族文化的象徵，放棄民族語言就意味著放棄民族的文化，如果全人類都講一種通用的語言，那麼各具特色、多元豐富的民族文化色彩也就黯然失色了。

儘管英語在美國及英國擁有絶對多數的使用人數，但仍有些地區會使用其他語言溝通。至於像加拿大（以英語和法語為官方語言）、紐西蘭（以英語和毛利語為官方語言）及瑞士（以德語、法語、義大利語及古羅馬語為官方語言）這樣的雙語和多語國家，或歐洲聯盟和聯合國這樣的組織，多語言的使用

（multilingualism）已經成為日常生活中的基本原則和普遍現象。

對於經濟發展來說，在這個多語言的世界上，翻譯對於商品推銷的重要性是眾人皆知的。如果台灣的產品在美國市場銷售，美國人當然希望這產品的說明書是用英文寫的，而不是用中文寫的。換句話說，若美國的產品要在台灣市場銷售，

我們當然希望這產品的說明書是用中文寫的，而不是用英文寫的。

以大陸為例，2008年在北京舉辦奧運，以及2010年在上海舉辦的世博會，操著不同語言的各國運動員、政府官員、著名人士、新聞記者以及來自世界各地數以萬計的觀賽者及觀光者來參加這樣大型的國際活動，多語言問題就會顯得特別突出。因此，如何解決多語言問題，使來自世界各地的人們能夠使用各自的母語輕鬆地進行交流，這是值得認真考慮的問題（馮志偉，2010）。

二、兩岸漢語的差異起源

海峽兩岸的漢語同根同源。自1915年起，中國興起了新文化運動，於是有了白話文與文言文之爭，這在漢語的發展史上具有轉折性的意義。最後，在這場爭論中白話文正式登上歷史舞台，而這種白話文正是海峽兩岸現代漢語的共同起源。只是當時並沒有確立使用者共同遵守的規範，因此在這群使用者中也存在著一定的分歧。隨著時間推移及社會的種種變化，都為後來漢語分化，衍生出兩岸漢語用語差異的伏筆。

1927年國共第一次合作破裂後，漢語開始出現分化。此後，隨著中共政權的建立及整個解放區的蓬勃發展，漢語分化的趨勢愈來愈明顯，於是正式形成了漢語分化的兩種變體。直至1949年兩岸交流中斷，使得這種分化更加明顯。

從1949年開始，一直到1987年才重啟兩岸交流的大門，在這30多年時間裡，

由於歷史背景的不同，兩岸分別制定出不同的語言政策。以大陸而言，建國後的語言政策主要包括四方面：

（一）普通話的推廣：普通話之意為「普遍共通、普遍通用」之全國共通語言，北京語音為標準、以北方話為基礎方言，與原國民政府推行的以北京地方的現代音系為標準音的標準國語相似但不相同。

（二）漢字的簡化：即對原先使用繁體字的簡化，這項工作從 50 年代開始，一直到80 年代中期才完成。

（三）「漢語拼音方案」的制定和推廣：「漢語拼音方案」是由第一屆全國人民代表大會第五次會議正式通過的，是以得到國際普遍承認的漢語普通話拉丁字母拼寫法或轉寫系統。

（四）現代漢語的規範化：針對上述，建立統一、明確、共同遵守的漢語語音、詞彙、語法以及文字標準。

以台灣來看，由於日本曾在台灣強制推行日語教育，為了扭轉這種局面，於 1946年4月成立推行國語的專門機構--台灣省國語推行委員會，使台灣的國語推行逐漸走上了正軌。又為了確定國語讀音的標準，同年5月30日編成《國音標準彙編》一書，此後，台灣人學習國語一直使用漢字筆畫式的注音符號。從1987 年到1994年間又訂立公布了新的讀音標準，簡化了一字多音的現象。

除了語音規劃，同時也對漢字進行整理，主要有常用字研訂和字形標準化二方面，其工作就是在繁雜的異體字形中選擇一個作為正體標準字，因台灣相當注重漢字歷史傳統，所以較少採用簡體字和俗字（張夢晗，2010）。

三、兩岸漢語用語及翻譯的差異比較

語言是一面鏡子，從中不但可以看到時代的身影，還可以看到特定社會環境，特定的文化風格。台灣和大陸雖然都推行漢民族共同語，但由於地域差異和歷史原因，以致於兩岸用語不盡相同，如我們所稱“資訊＂即為大陸所指“信息＂一詞，而且有趣的是還可以單憑這一用語，便可以斷定你是來自此岸還是來自彼岸，像“網路＂是台灣的稱法，“網絡＂則是大陸的稱法。就台灣和大陸用語差異的部份可以從三方面來說明：

（一）常用語彙的差異：即同一事物用不同詞語表達，或同一詞語表達不同的事物。如大陸的“摩托車＂在台灣被稱為“機車＂；大陸的“激光＂就是台灣所稱的“鐳射＂；“愛人＂在大陸是指配偶，而在台灣則是指情人。

（二）特殊語彙的差異：這裡所指的特殊語彙包括了政治術語、學術用語、

電腦用語、地名、人名翻譯以及電影翻譯等。其中有的語彙是此有彼無的，如大陸的“知青＂、台灣的“黨鞭＂；而有的詞語是由於翻譯不同產量差異，如澳洲首都Sydney依其發音被翻譯成「雪梨」（台灣譯）或「悉尼」（大陸譯）等不同的中文音譯詞。

（三）語言風格的差異：台灣的國語一方面保留了較多的文言成分，一方面又吸收較多的外來詞，其語言風格表現為追求高雅、莊重。而大陸的語言風格則有樸素、直白的特點。如台灣稱”借過”，而大陸則說“讓讓＂。

由上可知，詞語的用詞差異除了和歷史背景、社會習俗等有關外，翻譯則是另一個問題。中文所使用的漢字為一種形意文字，一個音節可以對應到不同的漢字，即使在使用中文語系的地方，如台灣、香港與中國，並沒有統一的翻譯標準，

以致於同一個外來詞或專有名詞等通常被翻譯成數個不同的中文詞。如此翻譯的結果，會導致搜尋引擎檢索資料不完整，如使用「雪梨」檢索，則可能無法檢索到使用「悉尼」翻譯詞的網頁資料。同樣的情形，發生在圖書館線上公用目錄查詢時，若是圖書館沒有做好權威控制與指引功能，則會產生無法檢索到資料或查全率低的情形。

四、跨語言資訊檢索

所謂跨語言資訊檢索，是提供使用者以某種語言檢索另外一種語言表達的文

件。過去這項研究，英文使用的名稱非常分歧，直至1996年在ACM SIGIR Workshop for Multilingual Information Retrieval ，將其定名為 Cross-Language Information Retrieval（簡稱CLIR）。而美國Defense Advanced Research Project Agency (DARPA)，也將這項研究給予另一種稱呼：Translingual Information Retrieval（簡稱TIR）。不管是那種稱呼，其研究目標一致，都是希望在多語的資訊時代，提供跨語的檢索服務（陳信希，2002）。跨語言資訊檢索的模式如圖 2-2。

圖2-1 多國語文資訊處理的階層模型

資料來源：Bian, G.-W. and Chen, H.-H.(2000), Cross-language information access to multilingual collections on the internet. Journal of the American Society for

Information Science, 51(3),p.282.

一般而言，使用者進行資訊檢索的模式，是依據其資訊需求（information need）轉化為查詢問題（question），然後將查詢問題建構為查詢問句（query），

以輸入資訊檢索系統，接著資訊檢索系統在文件集合進行檢索，將可能符合需求的文件輸出給使用者（陳光華，吳恬安，2008）。因此，陳信希（2002）提到跨語言資訊檢索會面臨的問題如下：

（一）查詢問句(query)與文件(document)分屬不同語言：這是跨語言資訊檢索主要的特徵，因此查詢問句與文件之間必須有一個對應，而翻譯則是重要的運算之一。

（二）查詢問句中的詞可能是多義：原始查詢(source query)的歧義性 (ambiguity)，與翻譯後目標查詢(target query)的多義性(polysemy)等問題必須克服。

（三）查詢問句通常很簡短：由於使用者的習性，輸入的查詢問句非常簡短，

這增加歧義性分析和翻譯的困難度，進而影響檢索的品質，適度的查詢擴展(query expansion)是可能考慮的方向。

（四）查詢問句中詞的決定：一些語言例如中文、日文、韓文等，詞與詞之間並沒有明顯的分隔符號，斷詞(segmentation)在此也是個問題。

（五）文件的多語性：網際網路上的文件由不同的語言表達，語言識別 (language identification)是檢索的基本工作。

在文檔中在台外籍學生檢索圖書館線上公用目錄問題之研究－以國立臺灣師範大學為例 (頁 17-25)

第二章 文獻探討

第一節 語言差異及跨語言資訊檢索問題之探討