• 沒有找到結果。

第三章 研究架構與方法

第二節 研究方法

本文除了針對「幾乎」的語義、篇章及語用三個平面進行理論上的討論 與分析外,並採用實證研究(empirical research)作為研究方法,透過科學 方法蒐集客觀實際的資料,經過分析歸納來證實或檢驗所要研究的問題,總 文詞彙特性速描系統」(Chinese Word Sketch Engine)和「北京大學現代漢 語語料庫」等兩個語料庫。而口語語料庫主要來源為「中國網」的「中國訪

談」(China Talk)之電視訪談節目文字稿。三者性質分別簡述如下。

(一) 中文詞彙特性速描系統

中文詞彙特性速描系統是一個結合了鉅量語料庫的語法知識產生統,除 了一般的關鍵詞及語境查詢外,更提供了詞彙特性速描 (word sketches) 、 語法關係以及同近義詞分析等自動產生的語法知識。內容包括:中文十億詞 語料庫(Chinese GigaWordCorpus) 和中央研究院平衡語料庫 5.0 版 。本研究 選「中央研究院現代漢語平衡語料庫」,簡稱「中研院平衡語料庫」的語料,

囊括在「中文詞彙特性速描系統」內,此語料庫具有完整詞類標記的語料庫,

並有自訂詞類標記的功能,可擴展關鍵字上下文的查詢功能,內容包含哲 學、科學、社會、藝術、生活及文學等方面。

(二) 北京大學現代漢語語料庫

北京大學現代漢語語料庫,簡稱「北大語料庫」,此語料庫為北京大學 中國語言學研究中心所策劃,收納人民日報等報刊、文摘、文學作品、翻譯 作品、電視電影戲據、北京話口語等之語料,內容範圍相當廣泛,本文採用 語料庫網絡版進行檢索分析。本文並運用其高級搜索功能使用,自由查找與

「幾乎」有關之詞彙的並列或排他性,以進行比較分析。

(三) 「中國網」之「中國訪談」節目文字稿

中國網是中國國務院新聞辦領導,中國外文出版發行事業局(中國國際 出版集團)管理的國家重點新聞網站。「中國訪談」是「中國網」的單元之 一,為主持人與來賓互動訪談的節目,主要訪談對象包括政府官員、專家學 者、外國大使、商界精英、話題人物等等的專訪,屬於較正式的口語語料。

此網站提供了訪談內容的全部文字稿,節省許多摘錄時間,使語料的蒐集簡 易而有效率。

二、 研究過程

本研究受限於人力和時間的因素,無法全數分析語料庫中所有的語料,

僅蒐集其中部份語料為樣本後進行分析。中文詞彙特性速描系統在未選擇詞 類標記類別下,搜尋所有「幾乎」的語料,語料庫查找結果共出現「幾乎」

的語料 1,097 筆,本文擷取 1,097 筆語料當中之第 1 筆至 411 筆做為語料之 樣本,進行歸納及分析,其中可用語料 400 筆,無效語料 1 筆和重複語料計 10 筆14

北京大學現代漢語語料庫所搜尋「幾乎」之語料,共出現 36,194 筆,

本文選取含有副詞「幾乎」的語料的前 404 筆做為語料之依據,進行比較分 析,其中可用語料 400 筆15,重複語料計 4 筆。兩個作為主軸之書面語語料 庫的數量及百分比如表三-1。

「中國網」之「中國訪談」節目中本文分別針對其中政府官員、專家學 者、商界精英、話題人物等單元的訪談節目中,每個單元隨機選取,摘錄節 目中的訪談文字稿,擷取本研究所需之相關口語語料,作為本研究之輔助語 料,以利分析和驗證。

表三-1 本文語料來源及數量

語料來源 總語料數 樣本語料數(百分比)

中文詞彙特性速描系統 1,097 400(36.46%)

北京大學現代漢語語料庫 36,194 400(1.11%)

總 計 37,291 800(2.15)

根據本文的文獻探討和研究架構,筆者將「幾乎」的語料依照不同的義 項、句式、功能等,逐一分析類別並統計比例,最後將數據和語料的分析結 果作為論證之依據,於第四章綜合討論。

14 無效語料為第 351 筆:「… 王玉清酷似年輕時鄭少秋。李南星幾乎重,(以下空白)」,

重複語料為第 5、10、11、12、13、136、141、184、266 筆及 308 筆,因此語料再增加 第 401 至 411 等 11 筆,以方便統計。

15 重複語料為第 7 筆、第 8 筆、367 筆和 368 筆,因此語料再增加第 401-404 等 4 筆,以 方便統計。

相關文件