• 沒有找到結果。

詞彙關聯應用

第二章 文獻探討

第二節 篇章分析研究

四、 詞彙關聯應用

(A58)

(60)

譯:以下引用其中最重要的來自世界各國人物與城市的反應。

Coulmas 曾在 1985 年提到,直接引語與間接引語的差異,在於前者是 原封不動轉述話語的形式與內容,後者僅轉述內容(引自辛斌,2005);因 此,新聞若包含大量的直接引語,則報導較為客觀。然而,事實並非如此。

Bell(1991)指出,直接引語是轉述者根據說話者大意編寫而成的,並不保 證完全按照說話者的原話引用;有時轉述者甚至未經過說話者的同意便引用 了。辛斌(2005:116)亦表示「任何一種轉述形式都可能為轉述者提供介入 他人話語的機會」,撰稿者經常需要在轉述話語中作調整,如刪除不規範或 不雅的語言,或為過於簡短的話語補添文字等。在此必須強調,轉述類型所 代表的意義,並不在新聞本身的客觀與否,而是反映不同語言的形式差異。

四、 詞彙關聯應用

最後,有關詞彙關聯的應用,本文指的是詞彙之間的「銜接(cohesion)」

手段。「銜接」是句子之間的篇章組織功能,該詞的出現,始於 Halliday &

Hasan(1976)提出英文的五種篇章銜接手段,分別是「照應(reference)」、

「替代(substitution)」、「省略(ellipsis)」、「連接(conjunction)」與「詞彙 銜接(lexical cohesion)」19等。以下主要探討的是詞彙銜接手段。

根據 Halliday & Hasan(1976),詞彙銜接意指「透過詞的重複、同義、

反義、上下義、互補等關係來達成篇章語意的連接」。這種銜接方式可分為

「複現關係」與「同現關係」兩類,分別說明如下。

19 隨後 Halliday(1985)將「替代」與「省略」合併,形成四種主要的銜接手段。

(一) 詞彙的複現關係(reiteration)

詞彙 複現 , 意即 某 一詞 彙 透 過 原詞 、 同義 詞( synonym)、近義詞

(near-synonym)、上義詞(superordinate)、下義詞(hyponym)、概括詞

(general word)、人稱指稱(personal reference)等形式,重複出現在篇章 之中稱之。複現的目的在使篇章的句子之間達成語意銜接,如例(61)所示。

(61) I turned to the ascent of the peak.

The ascent (原詞)

The climb (同義詞)

The task (上義詞) is perfectly easy.

The thing (概括詞)

It (指稱)

(二) 詞彙的同現關係(collocation)

詞 彙 同 現 , 指 的 是 詞 彙 透 過 互 補 ( complementarity ) 或 整 體 關 係

(meronymy),在篇章中共同出現的傾向(co-occurency tendency)稱之。

如例(62)所示,「boy(男孩)」與「girl(女孩)」便是互補同現的詞彙。

(62) Why does this little boy wriggle all the time? Girls don’t wriggle.

一般來說,篇章有一定的話題,圍繞在此一話題的某些詞彙,往往會同 時出現;其他與此話題不相關的詞彙,就不太可能或者不會出現。舉例來說,

在探討網路購物的文章中,可以預測會出現「商品」、「拍賣」、「底價」、「競 標」等相關詞彙,而不太可能出現如「學校」、「畢業」、「老師」、「教室」等 詞。詞彙同現的目的亦在使篇章的句子之間能完成語意的銜接。黃國文

(1988)指出,由於同現關係,這些在意義上相互連繫的詞彙同屬一詞彙套,

在篇章中形成了詞彙鏈(lexical chain)。當人們遇到某些詞彙時,便能自然 聯想到詞彙套中的其他詞彙。由此可見,詞彙的同現與篇章話題關係密切。

Tseng, Chang, Chang Rundgren, & Rundgren(2010)便進一步利用「關鍵 詞擷取(key term extraction)」來檢視篇章中的詞彙銜接手段。所謂關鍵詞擷 取,是指「一種辨認文件中有意義且具代表性的字串(string)、片語(key phrases)、詞彙(keywords)或片段(key segments)的自動化技術(曾元顯,

2003)」。要取得篇章中的關鍵詞,必須經過一定的篩選過程,如圖二-4 所示。

圖二-4 關鍵詞擷取流程

資料來源:“Mining concept maps from new stories for measuring civic scientific literacy in media,” by Y. H. Tseng, C.Y. Chang, S. N. Chang Rundgren, C. J. Rundgren, 2010, Computers & Education, 55, 168. Copyright 2010 by the Elsevier Ltd.

首先,篇章必須先斷詞(tokenization)。接著,計算各詞彙在篇章中出 現的次數,即詞頻(word frequency);擷取詞頻落在某一範圍的詞彙,即為 關鍵詞。然而,此時所得的關鍵詞並非最後結果,尚必須列出停用詞表(stop word list),將停用詞過濾20之後,方能取得最終所需的關鍵詞。這項技術原 用於圖書館的書目檢索,提供讀者相關詞的查詢服務,本研究則用來擷取中 文與阿拉伯文新聞篇章的關鍵詞,藉此呈現不同語言在詞彙使用上的差異。

20 「停用詞(stop word)」是指在篇章中出現頻率極高,但與篇章內容沒什麼關係的詞,

如副詞、介詞、連接詞、語氣詞等。如果在關鍵詞擷取時將停用詞計算進去的話,過 多的雜訊會使得統計結果變得無用,因此,在處理自然語言時,研究往往會設定過濾 掉這些詞。