第二章 文獻探討
第一節 語言差異及跨語言資訊檢索問題之探討
隨著網際網路與全球通訊的發展已打破空間的距離,形成新的傳播資訊型 態,而透過網際網路,我們能輕易獲取遠在地球另一端的資訊,既豐富又即時。
依據Ethnologue的統計,全世界現存的語言數目高達6,909種。現實使用語言人口 數,前幾名依次為中文、西班牙文、英文、阿拉伯文、印度文、孟加拉文、葡萄 牙文、俄文、日文及德文。又根據Miniwatts International(2011)統計,在網路 上最常使用的語言,英文排在第一位,而中文、西班牙文分居二、三位,其餘詳 見表2-1。
表2-1 網際網路前 10 大使用語言
Top Ten Languages Used in the Web
( Number of Internet Users by Language )TOP TEN LANGUAGES
IN THE INTERNET
Internet Users by Language
Internet Penetration by Language
Growth in Internet (2000 - 2011)
Internet Users
% of Total
World Population
for this Language (2011 Estimate)
English 565,004,126 43.4 % 301.4 % 26.8 % 1,302,275,670 Chinese 509,965,013 37.2 % 1,478.7 % 24.2 % 1,372,226,042 Spanish 164,968,742 39.0 % 807.4 % 7.8 % 423,085,806 Japanese 99,182,000 78.4 % 110.7 % 4.7 % 126,475,664 Portuguese 82,586,600 32.5 % 990.1 % 3.9 % 253,947,594
German 75,422,674 79.5 % 174.1 % 3.6 % 94,842,656
Arabic 65,365,400 18.8 % 2,501.2 % 3.3 % 347,002,991 French 59,779,525 17.2 % 398.2 % 3.0 % 347,932,305 Russian 59,700,000 42.8 % 1,825.8 % 3.0 % 139,390,205 Korean 39,440,000 55.2 % 107.1 % 2.0 % 71,393,343 TOP 10
LANGUAGES 1,615,957,333 36.4 % 421.2 % 82.2 % 4,442,056,069 Rest of the
Languages 350,557,483 14.6 % 588.5 % 17.8 % 2,403,553,891
WORLD
TOTAL 2,099,926,965 30.3 % 481.7 % 100.0 % 6,930,055,154
資料來源:http://www.internetworldstats.com/stats7.htm (updated for May 31 2011)
9
由表2-1可知,網路上的資訊是由多種語言所組成的。因此,多語性是網路 社會的重要特徵之一,如何將網路資源,介紹給不同語言的使用者,同時吸收其 他語言所呈現的資訊,都是資訊國際化不能忽略的重要課題 (陳信希,2002)。
而多語言處理的應用相當廣,尤其在許多數位圖書館計畫中都被列為關鍵技術之 一。
一、多國語言問題
在進入21世紀後,因為我們正處於一個多語網路的時代,所以都會直接或間 接與多語言資訊檢索打交道。不論對於政治社會或是經濟發展,多語資訊處理技 術無疑是個重要的研究領域。
從政治社會上來說,語言對於人類思想交流的重要作用是毋庸置疑的。為了 克服語言的障礙,曾經有人提出使用人類通用語言(lingua franca)來替代各種 不同語言的想法。但是,這樣的想法是很難實現的,即使有了這樣的通用語言,
它也代替不了各種不同的民族語言。因為語言是民族文化的象徵,放棄民族語言 就意味著放棄民族的文化,如果全人類都講一種通用的語言,那麼各具特色、多 元豐富的民族文化色彩也就黯然失色了。
儘管英語在美國及英國擁有絶對多數的使用人數,但仍有些地區會使用其他 語言溝通。至於像加拿大(以英語和法語為官方語言)、紐西蘭(以英語和毛利 語為官方語言)及瑞士(以德語、法語、義大利語及古羅馬語為官方語言)這樣 的 雙 語 和 多 語 國 家 , 或 歐 洲 聯 盟 和 聯 合 國 這 樣 的 組 織 , 多 語 言 的 使 用
(multilingualism)已經成為日常生活中的基本原則和普遍現象。
對於經濟發展來說,在這個多語言的世界上,翻譯對於商品推銷的重要性是 眾人皆知的。如果台灣的產品在美國市場銷售,美國人當然希望這產品的說明書 是用英文寫的,而不是用中文寫的。換句話說,若美國的產品要在台灣市場銷售,
我們當然希望這產品的說明書是用中文寫的,而不是用英文寫的。
以大陸為例,2008年在北京舉辦奧運,以及2010年在上海舉辦的世博會,操 著不同語言的各國運動員、政府官員、著名人士、新聞記者以及來自世界各地數 以萬計的觀賽者及觀光者來參加這樣大型的國際活動,多語言問題就會顯得特別 突出。因此,如何解決多語言問題,使來自世界各地的人們能夠使用各自的母語 輕鬆地進行交流,這是值得認真考慮的問題(馮志偉,2010)。
二、兩岸漢語的差異起源
海峽兩岸的漢語同根同源。自1915年起,中國興起了新文化運動,於是有了 白話文與文言文之爭,這在漢語的發展史上具有轉折性的意義。最後,在這場爭 論中白話文正式登上歷史舞台,而這種白話文正是海峽兩岸現代漢語的共同起 源。只是當時並沒有確立使用者共同遵守的規範,因此在這群使用者中也存在著 一定的分歧。隨著時間推移及社會的種種變化,都為後來漢語分化,衍生出兩岸 漢語用語差異的伏筆。
1927年國共第一次合作破裂後,漢語開始出現分化。此後,隨著中共政權的 建立及整個解放區的蓬勃發展,漢語分化的趨勢愈來愈明顯,於是正式形成了漢 語分化的兩種變體。直至1949年兩岸交流中斷,使得這種分化更加明顯。
從1949年開始,一直到1987年才重啟兩岸交流的大門,在這30多年時間裡,
由於歷史背景的不同,兩岸分別制定出不同的語言政策。以大陸而言,建國後的 語言政策主要包括四方面:
(一)普通話的推廣:普通話之意為「普遍共通、普遍通用」之全國共通 語言,北京語音為標準、以北方話為基礎方言,與原國民政府推行 的以北京地方的現代音系為標準音的標準國語相似但不相同。
11
(二)漢字的簡化:即對原先使用繁體字的簡化,這項工作從 50 年代開 始,一直到80 年代中期才完成。
(三)「漢語拼音方案」的制定和推廣:「漢語拼音方案」是由第一屆全 國人民代表大會第五次會議正式通過的,是以得到國際普遍承認的 漢語普通話拉丁字母拼寫法或轉寫系統。
(四)現代漢語的規範化:針對上述,建立統一、明確、共同遵守的漢語 語音、詞彙、語法以及文字標準。
以台灣來看,由於日本曾在台灣強制推行日語教育,為了扭轉這種局面,於 1946年4月成立推行國語的專門機構--台灣省國語推行委員會,使台灣的國語推 行逐漸走上了正軌。又為了確定國語讀音的標準,同年5月30日編成《國音標準 彙編》一書,此後,台灣人學習國語一直使用漢字筆畫式的注音符號。從1987 年到1994年間又訂立公布了新的讀音標準,簡化了一字多音的現象。
除了語音規劃,同時也對漢字進行整理,主要有常用字研訂和字形標準化二 方面,其工作就是在繁雜的異體字形中選擇一個作為正體標準字,因台灣相當注 重漢字歷史傳統,所以較少採用簡體字和俗字(張夢晗,2010)。
三、兩岸漢語用語及翻譯的差異比較
語言是一面鏡子,從中不但可以看到時代的身影,還可以看到特定社會環 境,特定的文化風格。台灣和大陸雖然都推行漢民族共同語,但由於地域差異和 歷史原因,以致於兩岸用語不盡相同,如我們所稱“資訊"即為大陸所指“信 息"一詞,而且有趣的是還可以單憑這一用語,便可以斷定你是來自此岸還是來 自彼岸,像“網路"是台灣的稱法,“網絡"則是大陸的稱法。就台灣和大陸用 語差異的部份可以從三方面來說明:
(一)常用語彙的差異:即同一事物用不同詞語表達,或同一詞語表達不同 的事物。如大陸的“摩托車"在台灣被稱為“機車";大陸的“激 光"就是台灣所稱的“鐳射";“愛人"在大陸是指配偶,而在台灣 則是指情人。
(二)特殊語彙的差異:這裡所指的特殊語彙包括了政治術語、學術用語、
電腦用語、地名、人名翻譯以及電影翻譯等。其中有的語彙是此有彼 無的,如大陸的“知青"、台灣的“黨鞭";而有的詞語是由於翻譯 不同產量差異,如澳洲首都Sydney依其發音被翻譯成「雪梨」(台灣 譯)或「悉尼」(大陸譯)等不同的中文音譯詞。
(三)語言風格的差異:台灣的國語一方面保留了較多的文言成分,一方面 又吸收較多的外來詞,其語言風格表現為追求高雅、莊重。而大陸的 語言風格則有樸素、直白的特點。如台灣稱”借過”,而大陸則說“讓 讓"。
由上可知,詞語的用詞差異除了和歷史背景、社會習俗等有關外,翻譯則是 另一個問題。中文所使用的漢字為一種形意文字,一個音節可以對應到不同的漢 字,即使在使用中文語系的地方,如台灣、香港與中國,並沒有統一的翻譯標準,
以致於同一個外來詞或專有名詞等通常被翻譯成數個不同的中文詞。如此翻譯的 結果,會導致搜尋引擎檢索資料不完整,如使用「雪梨」檢索,則可能無法檢索 到使用「悉尼」翻譯詞的網頁資料。同樣的情形,發生在圖書館線上公用目錄查 詢時,若是圖書館沒有做好權威控制與指引功能,則會產生無法檢索到資料或查 全率低的情形。
四、跨語言資訊檢索
所謂跨語言資訊檢索,是提供使用者以某種語言檢索另外一種語言表達的文
13
件。過去這項研究,英文使用的名稱非常分歧,直至1996年在ACM SIGIR Workshop for Multilingual Information Retrieval , 將 其 定 名 為 Cross-Language Information Retrieval(簡稱CLIR)。而美國Defense Advanced Research Project Agency (DARPA),也將這項研究給予另一種稱呼:Translingual Information Retrieval(簡稱TIR)。不管是那種稱呼,其研究目標一致,都是希望在多語的 資訊時代,提供跨語的檢索服務(陳信希,2002)。跨語言資訊檢索的模式如圖 2-2。
圖2-1 多國語文資訊處理的階層模型
資料來源:Bian, G.-W. and Chen, H.-H.(2000), Cross-language information access to multilingual collections on the internet. Journal of the American Society for
Information Science, 51(3),p.282.
一般而言,使用者進行資訊檢索的模式,是依據其資訊需求(information need)轉化為查詢問題(question),然後將查詢問題建構為查詢問句(query),
以輸入資訊檢索系統,接著資訊檢索系統在文件集合進行檢索,將可能符合需求 的文件輸出給使用者(陳光華,吳恬安,2008)。因此,陳信希(2002)提到跨 語言資訊檢索會面臨的問題如下:
(一)查詢問句(query)與文件(document)分屬不同語言:這是跨語言資訊檢 索主要的特徵,因此查詢問句與文件之間必須有一個對應,而翻譯則 是重要的運算之一。
( 二 ) 查 詢 問 句 中 的 詞 可 能 是 多 義 : 原 始 查 詢(source query)的歧義性 (ambiguity),與翻譯後目標查詢(target query)的多義性(polysemy)等問 題必須克服。
(三)查詢問句通常很簡短:由於使用者的習性,輸入的查詢問句非常簡短,
這增加歧義性分析和翻譯的困難度,進而影響檢索的品質,適度的查 詢擴展(query expansion)是可能考慮的方向。
(四)查詢問句中詞的決定:一些語言例如中文、日文、韓文等,詞與詞之 間並沒有明顯的分隔符號,斷詞(segmentation)在此也是個問題。
(五)文件的多語性:網際網路上的文件由不同的語言表達,語言識別 (language identification)是檢索的基本工作。
(五)文件的多語性:網際網路上的文件由不同的語言表達,語言識別 (language identification)是檢索的基本工作。