語料庫分析法 - 文獻回顧 - 台灣報紙再現同性婚姻的語料庫與論述分析(2005-2014)

第二章文獻回顧

第一節、語料庫分析法

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第三章研究方法

由於我需要質量兼具的研究方法，去同時探討同性婚姻再現論述隨社會變遷轉變的趨勢，以及論述中隱含的社會價值與權力，我決定採取結合語料庫分析法

（corpus linguistics techniques）的研究方法，以符合我所需要的效果。這種近年興起的研究方法，為許多質性社會科學研究增添了缺乏的量化面向。因此，本節將先介紹語料庫分析法，指出其優勢與侷限後，再解釋如何運用質性文本分析來補足之，說明兩種方法並用的效果。其後，再提出本研究的步驟和研究範圍。

第一節、語料庫分析法壹、方法發展背景

「語料庫分析法」是使用電腦軟體分析電子文本的量化語言研究方式

（methodology）（Baker, et al, 2008：274），主要被用於對大量文本進行統計分析，

計算字詞出現的頻率並呈現相鄰字詞，進而發現文本中的語言模式，並進一步去詮釋此模式。以語料為基礎（corpus-based）的研究方法，最早可溯至十九世紀初期，用於研究嬰兒的語言學習（Taine, 1877; Preyer, 1899; Baker, 2006a：2）。不過早期所謂的語料，都是來自研究者蒐集的紙本資料。單憑一張張文本與人的眼手，

幾乎不可能對大量的語言資料做分析，使得語料分析法初起之時被批評樣本太小，

研究結果難免扭曲（McEnery, et al., 2006：3-4）。

第一個電腦生成的語料組合（computer-generated concordances）在 1950 年代後期出現，是使用穿孔卡的技術來儲存（punched-card），當時處理約六萬字的語料就需要花上超過二十四小時（O’Keeffe & McCarthy(Eds.), 2010：4）。然而，1970 年代出現很大的進展，電腦科技的快速發展，帶來了成本低廉、前所未見的強大儲存功能，大量語料的利用從此變得可行。語料與電腦科技的「聯姻」，再度燃起學界對語料分析法的興趣。

因此，一直到 1970 年代為止，運用語料的研究數量都仍相當稀少，但從 1980

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

年代開始個人電腦興起並被廣泛使用後，語料和語料研究的數量與規模便戲劇性地增加（Johnson, 1991：12; McEnery, et al., 2006：4）。Johansson（1991）指出，使用語料庫分析的研究數目在 1976 年～1991 年期間，每五年就呈雙倍成長（Baker, 2006a：2）。時至今日，語料分析法已經受到學界廣泛的歡迎（McEnery, et al., 2006：

4）。

語料分析法多被運用在語言學科方面，研究文法的使用或語言的政治正確性。

還有如包含字典創作（Clear et al. 1996）、協助文學文本的解讀（Louw, 1997）、法庭語言學（Woolls and Coulthard, 1998）、語言敘述（Sinclair, 1999）、語言變化研究

（Biber, 1988）及語言教學素材（Johns, 1997）等（Baker, 2006b：6）。不過，如今也已經被用在分析一些以認同（identity）議題為基礎，特別是與弱勢族群有關（如同性戀、女性、聾啞人士和非白人種族等）的語言使用研究（Baker, 2006a：2）。先前提到 Baker 的《男同志的公共論述》一書，即是運用語料庫分析的同志認同語言研究。

貳、語料庫分析法的優勢一、成本低廉、準確易操作

使用電腦進行語言研究最明顯的優點，就是不論對資料進行搜尋、挑選、分類還是結合，都能快速、輕易地操作且成本低廉。再者，電腦化的處理也帶來人力難及的準確性（McEnery, et al., 2006：6）。

二、避免研究者偏見

電腦可以避免人類分析的偏見，讓研究結果更可信（McEnery, et al., 2006：6）。研究者不易察覺自己潛意識的偏見，也會因為各種原因而不想承認自己的立場

（例如，擔心研究發現可能因為自己的特殊身分被貶低，如性傾向、性別、種族等，所以選擇隱藏自我的身分認同）。這種偏見特別會在執行如論述分析這種研究方法時造成問題。舉例來說，研究者可能會挑出可以「證實」自己假設的新聞

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

文本，而忽略其他呈現不同觀點的文章（Baker, 2006a：11）。此外，也可能只聚焦在文本中支持自己假設的部分，卻忽視其他呈現更多複雜性或相反情況的部分

（Baker, 2006a：12）。

但若是藉由使用語料分析，當研究者面對數百篇以上的文本，從中挑選出單一文章就變得沒那麼容易，相反地，整體的語言模式和趨勢會被展現出來。當然，

偏見無法被完全去除，語料研究者最後也可能選擇只描述研究的某個面向，或在詮釋資料時顯現偏見。不過至少有了語料，出發點就是資料本身，而不是因為要證實某種（潛）意識上的偏見而挑選出的資料（Baker, 2006a：12）。簡言之，語料庫分析法藉著呈現一個語言量化模式，來確保研究者至少是從一個較沒有偏見的位置出發（Baker, 2006b：5）。

如 Baker（2006b, 217）在對報紙進行語料研究前，原以為報紙會把男同志建構成愚蠢、瑣碎且陰柔的，但他研究後發現男同志更常是以危險形象被建構，而在政治議題上是堅定且暴力的。這證明了語料庫分析法的資產之一，就是去除研究者原先所持有的成見。

三、顯現累積的增值效果

語料對於論述有所謂「增值效果」（incremental effect）。在社會上傳播和強化某特定論述的最重要方式之一就是使用語言，而論述分析者的工作就是去揭開語言如何被使用。藉由揭發語言建構論述和各種看世界的方式，可以抗拒文本作者對我們的操縱，以及試圖告訴我們什麼是「常識」或「公認的知識」（accepted wisdom）。藉由提供大量、足夠的文本，語料資料讓我們得以辨識「主流論述」，並確切勾勒出主流論述的字詞頻率及其普遍程度。當然，單單只有頻率清單並不永遠能證明某論述一定是或不是主流，但它仍然是很好的指示（Baker, 2006b：

16-7）。

但是除了倚賴我們的直覺（和偏見）之外，有時要分辨一個論述是不是有代表性（typical）是困難的。這時蒐集眾多論述建構的例子，就可以幫助我們開始

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

看見一種累積的效果。如 Stubbs（2001：215; Baker, 2006a：13）所總結的：「重複的模式可以顯示出能夠去評估的意義，這不只是個人的、有特性的，也廣為論述社群（discourse）所共有。一個字、詞或句法結構都可能引起一個文化的刻板印象。」

Baker（2006a：13-4）舉一個英國雜誌撰寫的句子為例：「儘管在過去四十五年黛安娜只能靠輪椅行動（despite being confined to a wheelchair for the last 45 years），她仍是一位熱情的水手，希望能鼓勵更多殘障人士從事水上活動。」這個句子的語氣看似正面，但 Baker 認為「被侷限」（confined）和「輪椅」（wheel chair）以及「儘管」（despite），都可能存在著語言使用的問題，暗示著讀者正常來說坐輪椅的人不應該是個水手。

所以他又蒐集更多文本，統計發現「被侷限」和「輪椅」兩字經常在文章中一起出現，具有相當強烈的模式，「雖然」和「儘管」也是常和這兩個字同時出現的字眼。描寫黛安娜的這個句子並不是個案，它符合了大眾對於輪椅人士的期待，認為他們正常來說不會、甚至不應該也不可能去從事某些戶外活動。而每當我們讀到或聽到這些一起出現的字眼，可能就會在某種程度上被影響，甚至再製這樣的語言使用，在不自覺中成為造成文化刻板印象的推手，「貢獻」了語言使用的累積效果。

除了可以展現語言的重複模式，作為特定霸權論述或主流「常識」的證據，

語料也可以揭露相反的對立面，呈現反對與變遷的論述。論述不是固定的，而是會不停地轉移、變動。例如十年前的霸權論述，現在可能是完全相反或不被接受的論述。最基本來說，可藉由歷時性文本中的字詞使用頻率變化，或藉由比較兩個不同時期的文本，來觀察論述的變遷，像是現今與資本主義相關的字，在媒體上出現的頻率毫無意外地會比過去多上許多（Baker, 2006a：14）。

此外，也可以比較不同時期字詞的用法，因為有些字可能過去和現在的出現頻率沒有太大變化，但是意義卻已經改變（Baker, 2006a：15）。字的意義不會固

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

定不變（static），他們會隨時間變化，也會因不同人有不同意義（Baker, 2006a：

20）。例如在 1960 年代「盲目的」（blind）指涉的僅是看不見的人或動物，到了九Ｏ年代，這個字的被使用頻率雖然沒有太大變化，卻衍生出「無知的、輕率的、

缺乏事先思考能力」等負面意義。Hunston（1999）認為這些衍生的意涵，可能會組成一個語義韻律¹⁸，影響大眾對盲目（blindness）此字眼或盲人的態度（Baker, 2006a：15）。又如有些人對「同性戀」（gay）這個字的近期發展感到不悅，「同性戀」被用來形容某人不贊同某事物，如：「這個考試時間表真是同性戀（gay）」（Baker, 2005：1）。雖然很多以這種方式在用這個字的人，並沒有恐同的意圖（有些人本身就是同性戀）（Baker, 2006a：20），但「同性戀」明顯代表了一種負面的評價。

參、分析元素一、字詞頻率

統計頻率是最廣為所知也最簡單能對語料執行的量化技巧（Baker, 2006b：23），也是最中心的概念之一，藉由觀察頻率可以發現各種有趣的現象。頻率之所以對論述分析如此重要，是因為語言並非是任意的事情（random affair）。語言是有規則為基礎的，字詞傾向於和其他字詞間有關係，而且明顯地有跡可循。如 Stubbs

（1996：107）所說：「沒有字詞是中立的，字的選擇表現了一個意識形態位置。」

作者做特定的詞彙選擇而不選其它詞彙，可以和特定論述的呈現及建構認同的意圖有關（Baker, 2006a：68）。

Baker 舉了一個例子，他表示大多數人會認為英文的「他是同性戀（gay）」跟「他是一個同性戀（a gay）」比起來，比較沒有負面的偏見。因為前者的同性戀是形容詞，去形容一個人擁有的其中一種特徵，然而後者的同性戀作為名詞，

就像把一個人總結成一種性傾向了一般（Baker, 2006a：47-8）。

18 請見本小節〈參、分析元素〉之〈三、共詞組合〉的介紹。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

二、關鍵字清單

可以由頻率字清單衍生出的統計是「關鍵字清單」，它可能比單純的頻率字清單還要有揭露能力（revealing）（Thornbury, 2010：273）。在某語料或文本中意外高頻率出現的特定字詞可以被稱為關鍵字（Baker, 2006b：25-6）。這些字詞是所謂的「關鍵語言」（keyness），關鍵語言可以幫助找出文本同質性，點出文本內

在文檔中台灣報紙再現同性婚姻的語料庫與論述分析(2005-2014) - 政大學術集成 (頁 60-71)

語料庫分析法

第二章 文獻回顧

第一節、 語料庫分析法

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第二章文獻回顧

第一節、語料庫分析法

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學