• 沒有找到結果。

第三章 研究方法

第一節 研究工具介紹

陳浩然(2017)於《語料庫與華語教學》提及,最初語料庫的建置可追溯到 1960年代的布朗語料庫(Brown Corpus),該語料庫為一英語語料庫,同時也是第 一個具系統性的標準語料庫。語料庫是藉由搜集大量且特定的文本,經特定原則 處理後,以數位的方式儲存資料,並且提供使用者檢索功能,因此語料庫可呈現 客觀全面的語言現象,如此一來避免主觀臆測。

為求以中立客觀的角度探討動補結構「V+好」和「V+完」在表達完成語義 的差異,本研究以中央研究院平衡語料庫為語料收集來源,並以中文詞彙網路和 教育部重編國語辭典做為詞義查詢輔助,以下將逐一介紹這些語料庫的建置與特 色。

一、中央研究院平衡語料庫4.0版

中央研究院平衡語料庫簡稱「中研院平衡語料庫」(Sinica Corpus),以下將 簡稱為平衡語料庫。自1990年代起,由中研院詞知識庫小組收集語料,再加上詞 類標記而成的語料庫。這也是世界上第一個具有完整詞類標記的漢語平衡語料庫。

該語料庫於1996年完成網頁版,提供線上檢索使用,目前4.0版已更新開放至一千 多萬詞。

這是世界上第一個有完整詞類標記的漢語語料庫,最大的特色在於完整的詞 類標記,而且每個文句都依「詞」斷開。詞類標記參考中研院詞庫小組原本的178

2

個詞類,經由簡化再加上3個特殊標記,最終總計46個詞類標記。

為了語料的平衡性,在語料的收集上打破單一文體,搜集範圍從書面語的報 紙、公告啟事、小說或廣告,到口語的訪談、演講至劇本,收錄豐富多樣的語料,

並且給予所有語料文類、文體、語式、主題以及媒體,以上五個不同的特徵標記,

這些標記更有效的幫助使用者查詢資料,有便於使用者檢索時,能根據自身需求 限制特定範圍。平衡語料庫根據語料標記,設定選定功能如下圖三-1呈現。

圖三- 1:中央研究院平衡語料庫查詢範圍

使用檢索功能時,平衡語料庫將根據檢索的關鍵字,挑出所有包含關鍵字的 句子,並以紅字置中該關鍵字方便使用者瀏覽。在檢索欄位的最右欄,平衡語料 庫提供了八種語法特徵於搜尋頁面,可更加精確的縮小語料範圍,例如選擇檢 索 ”vrv”(動補動詞中的動詞成分)的特徵後,將縮小搜尋範圍至動補結構中,

此時檢索顯著提示僅能是動補結構的動詞成分。

除了以關鍵字搜尋,平衡語料庫還提供了兩種搜尋條件不同的檢索方式,分 別是單項條件檢索和多項條件檢索。在單項條件檢索中,檢索的關鍵字可以由符 號「?」、「*」組成,「?」表示一個任意字元,「*」表示零至無限多個任意字元。

舉例來說,若在檢索欄輸入「電腦」,將搜尋所有包含「電腦」的句子,若輸入

「電?」將搜尋以「電」開頭的雙音節詞彙,輸入「電*」將搜尋以「電」開頭無 論字數的所有詞彙,如此一來,增添了多種搜尋方式。多項條件檢索可一次設定

兩項以上的檢索條件。使用者必須先輸入需要檢索關鍵字,接著進入左上方「進 階處理」,此時可根據自身需求限定檢索的前後字數範圍、詞類以及特徵。

平衡語料庫是世界上第一個有完整詞類標記的漢語語料庫,收錄語料範圍廣 闊,至今網頁版4.0可檢索高達一千多萬詞,且平衡語料庫提供提供使用者上述不 同的條件設定檢索方式,可有效幫助使用者搜尋特定語料。本研究為了以客觀角 度探討完成義動補結構「V+好」和「V+完」的差異,將以平衡語料庫作為研究 語料來源,第二小節詳述檢索方式。

二、中文詞彙網路

中文詞彙網路(Chinese Wordnet)是一種詞義檢索系統,目的在於提供完整 的中文詞義(sense)區分與詞彙語意關係知識庫,於2006年正式提供給各界檢索 使用。

根據詞義劃分是中文詞彙網路重要的特色,而且中文詞彙網路的劃分標準建 立在完整的詞義學(lexical semantics)以及知識本體(ontology)上。在詞義的劃 分上,不同詞義將獨立為一項語義,這些語義將不因為語境改變而改變其義。必 須注意,義面(meaning facet))指詞彙在明確有單一的詞義下,在不同的語境中,

有更細緻的區分概念,比如說:修飾範圍可能分為「數量」和「事件」,但這和詞 義本身無關,僅是修飾範圍的差異,所以並不會因義面不同而個別列詞條。

該網站以中央研究院平衡語料庫為本,參照辭典及網路資源,以劃分詞義提 供釋例為其特色,有助於使用者查詢詞彙解釋,除了詞義解釋、詞類和例句外,

部分詞義也會提供同義詞或反義詞,檢索頁面呈現如下圖三-2。

圖三- 2:中文詞彙網路查詢「好」

本研究為了以客觀角度探討動補結構「V+完」和「V+好」表達完成語義的 差異,選定平衡語料庫作為研究資料,並且以中文詞彙網路分析動詞語義,第三 節研究流程說明如何應用該語料庫。

三、教育部重編國語辭典3

教育部重編國語辭典收錄漢語中古至現代各類詞語,並且引用各類文獻書證 作為例證,該網站屬於辭典查詢性質,檢索功能有助使用者檢索詞彙釋義、讀音 以及文獻例證,檢索頁面如下圖三-4。

3 教育部重編國語辭典 http://dict.revised.moe.edu.tw/cbdic/(擷取日期:2020/01/15)

圖三- 3:教育部重編國語辭典查詢「完」

該網站收錄詞彙包含成語、慣用語、歇後語、諺語、外來語、專門用語和準 固定語,也就是定性不如成語、慣用語等,但在表示一般概念時,是使用頻率高 固定的詞組,例如:「小心眼」。

教育部重編國語辭典收錄語料橫跨中古至現代,範圍廣闊,每個詞彙都具有 詳細的釋義,本研究於分析動補結構「V+好」和「V+完」的完成語義比較時,

也將參照該語料庫的詞義解釋,分析動補結構中各個成分的語義。

本研究探討完成義動補結構「V+好」和「V+完」的差異,為了以客觀角度 探查並避免主觀臆測,因此以語料庫做為資料來源。回顧過去的研究,也有相關 研究使用北京大學現代漢語語料庫分析動補結構「V+好」(丁萍,2012),因為本 研究將聚焦於台灣地區的使用習慣,考慮語料的平衡性,最終選定中央研究院平 衡語料庫4.0版作為語料來源,第二節將說明語料來源與研究範圍,第三節說明研 究流程。