第二章 文獻探討
第二節 語料庫與語意空間建置
所謂語料庫是指大型的詞語資料庫,記錄了大量語言的使用情形,含有大 量語料分析文本資料,內容經過蒐集彙整和描述標記,以固定標籤與格式儲存,
供研究進行統計分析與測試。由 LSA 基本架構圖 2-1 中,可知 LSA 運作的第 一步是收集和建置所需要的語料庫。由於 LSA 本身是無用的,必須應用在語料 庫上(Lemaire, Denhiere, Bellissens, & Jhean-Iarose, 2006),才能發揮其功用。陳 明蕾等人(2009)認為若有一個大型的語料來源能適當的反映人所擁有的語彙 知識,就可以藉用 LSA 技術建立一個能推演出這些語彙知識背後語意關係的語 意空間。Wiemer-Hastings(2004)提到建置 LSA 所需要的語料庫時,其語料來源 能越大越好,且語料庫要能和研究目的有一定的相關性。Quesada (2006)認為語 料庫是可以反映出一般受試者的思維表現,所以在建立一個 LSA 語意空間的過 程中,語料庫的選擇是非常重要的一部份,能夠讓 LSA 可以精確地計算出詞與 詞、句子與句子或是文章與文章間的語意關聯程度。由此可知,語料庫所包含 的詞彙越貼近研究目的受試者所認知的詞彙越好。故語料來源越能代表族群自 然而真實的語言使用現象,其所建立出來的語意空間就愈能清楚的反應出字 詞、語句與文件彼此間所存在的語意關聯性,進而反映人類內在心理的語彙知 識表徵。因此,建置一個與研究目的相對應的語料庫是相當重要的。
另外,語意空間的建置已有許多研究。Landauer 等人(Landauer & Dumais, 1997; Landauer et al., 1998)利用電子版葛羅里學術百科全書(Grolier's Academic American Encyclopedia)中的 30,473 篇文章建立語意空間,其中包含 60,768 個 字詞(word type)和 30,473 個文件(article)。此一共生矩陣所呈現的是在百科
全書中,每個關鍵詞在每份文件中出現的次數,並沒有涉及到關鍵詞之間彼此 的語意關係。
科羅拉多大學的 LSA 研究團隊採用的 TASA(Touchstone Applied Science Associates, Inc.)語料有 9 百萬個詞。他們也分別與法、德國學者合作,各自採 用有 320 萬個詞的法文語料庫和有 500 萬個詞的德文語料庫(Dennis, 2006),成 功建立兩種不同語系的 LSA 語意空間(Quesada, 2006),驗證 LSA 具有不需使用 文法或事先定義語彙的特性,讓 LSA 技術可以不受限於英語系環境之下。因 此,非英語的語料庫只要建立好關鍵詞與文件間相對應的共生矩陣,就可利用 LSA 技術建立該語系的語意空間(陳明蕾等人,2009)。
Lemaire、Denhiere、Bellissens 與 Jhean-Iarose (2006)建置一個約 320 萬字 的兒童語料庫,其中涵蓋兒童故事和寓言傳說(約 160 萬字)、兒童創作讀物(約
Graesser、Penumatsa、Ventura、Cai 與 Hu (2007)建置的 AutoTutor 系統中,
電腦知識包含電腦硬體、作業系統與網際網路等三個主題,其語料庫是由電腦 素養的教科書、課程腳本和 30 篇文章(其中三個主題各 10 篇,合計 30 萬字)
所組成;在物理學的語料庫則是由課程腳本、觀念物理(Conceptual physics)
中有關的 8 個章節(Hewitt, 1998)、6 冊大學主修的應用和生活科學之通識教材、
2 本高等的電磁學教材以及 2 本電子物理教材(約 1 萬字)共同組成,合計有 6,536 個專門名詞(Olde, Franceschetti, Karnavat, Graesser, & the Tutoring Research Group, 2002)。
(2002)蒐集 100 篇新台灣週刊中關於政治類的文章,建立一個約有 1,600 個
蘇義翔(2007)所發展的華語文閱讀摘要系統(Electronic Chinese Reading Summarization, ERCS)也是採用 LSA 技術,首先在網路上蒐集與主題(蜜蜂、
袋熊、糞金龜與蝴蝶)相關聯的文章,蒐集到的篇數分別是 22、10、7 與 11 衡語料庫(Sinica Corpus 3.0),共計 9,277 份文件,500 萬詞,為大型語料來源,
建置步驟為從文件中尋找詞做為矩陣所需要的關鍵詞,此關鍵詞必須在文件中
書與獲得授權的兒童讀物,共 945 篇文章,採用 LSA 技術,建構一個 14,801 詞彙與 1,603 文件(每篇文件約 200 字)的兒童語意空間。劉嘉玲、郭伯臣、
廖晨惠與白鎧誌(2012)從國小三到六年級的國語、社會和自然與生活科技等 三個學習領域中,個別挑選文章進行句子效度驗證初探,各年級各有 36 組句子 進行語意相似度的比對,發現同篇文章的句子順序兩兩呈現與句子隨機兩兩呈 現,其語意關聯程度皆顯著高於不同篇文章的句子隨機方式呈現。一般來說,
同篇文章內的句子會依照文章主題發展而編排,但不同篇文章的句子則會隨著 主題不同,其語意相似度會低於文章內的隨機句子,因此結果顯示廖晨惠建立 的兒童語意空間符合預期推論。
由上述相關文獻得知,語料庫必須能夠呈現自然真實的語言使用現象,且 與研究目的有一定的相關性,內容愈豐富愈好。然而中央研究院建置的平衡語 料庫取材是偏向於一般日常生活中常見的用字與文章,涵蓋六大主題:哲學、
科學、社會藝術、生活及文學等,語式則有五類:書面語、演講稿、劇本台詞、
會話以及會議記錄,內容範圍與程度較適合一般的成人。另外,由語言資料協 會(The Linguistic Data Consortium)製作的中文十億詞語料庫(Chinese Gigaword Corpus)第二版(Graff, Chen, Kong, & Maeda, 2005; Ma & Huang, 2006),總計約 8 億詞,取材來源為台灣中央社(約 4 億 9 千萬詞)、北京新華社(約 3 億 1 千 萬詞)與新加坡早報(約 1 千 8 百萬詞)等三家中文新聞媒體,其文章內容中 的遣詞用字也是較適合一般成人閱讀,較適合應用在成人語意空間之研究。因 此,本研究將協助團隊建置一個兒童中文語料庫,透過 LSA 技術建立兒童中文 語意空間。除了瞭解兒童中文語意空間的特性外,並評估其效度。