語料庫與語意空間建置

第二章文獻探討

第二節語料庫與語意空間建置

所謂語料庫是指大型的詞語資料庫，記錄了大量語言的使用情形，含有大量語料分析文本資料，內容經過蒐集彙整和描述標記，以固定標籤與格式儲存，

供研究進行統計分析與測試。由 LSA 基本架構圖 2-1 中，可知 LSA 運作的第一步是收集和建置所需要的語料庫。由於 LSA 本身是無用的，必須應用在語料庫上(Lemaire, Denhiere, Bellissens, & Jhean-Iarose, 2006)，才能發揮其功用。陳明蕾等人（2009）認為若有一個大型的語料來源能適當的反映人所擁有的語彙知識，就可以藉用 LSA 技術建立一個能推演出這些語彙知識背後語意關係的語意空間。Wiemer-Hastings(2004)提到建置 LSA 所需要的語料庫時，其語料來源能越大越好，且語料庫要能和研究目的有一定的相關性。Quesada (2006)認為語料庫是可以反映出一般受試者的思維表現，所以在建立一個 LSA 語意空間的過程中，語料庫的選擇是非常重要的一部份，能夠讓 LSA 可以精確地計算出詞與詞、句子與句子或是文章與文章間的語意關聯程度。由此可知，語料庫所包含的詞彙越貼近研究目的受試者所認知的詞彙越好。故語料來源越能代表族群自然而真實的語言使用現象，其所建立出來的語意空間就愈能清楚的反應出字詞、語句與文件彼此間所存在的語意關聯性，進而反映人類內在心理的語彙知識表徵。因此，建置一個與研究目的相對應的語料庫是相當重要的。

另外，語意空間的建置已有許多研究。Landauer 等人(Landauer & Dumais, 1997; Landauer et al., 1998)利用電子版葛羅里學術百科全書（Grolier's Academic American Encyclopedia）中的 30,473 篇文章建立語意空間，其中包含 60,768 個字詞（word type）和 30,473 個文件（article）。此一共生矩陣所呈現的是在百科

全書中，每個關鍵詞在每份文件中出現的次數，並沒有涉及到關鍵詞之間彼此的語意關係。

科羅拉多大學的 LSA 研究團隊採用的 TASA（Touchstone Applied Science Associates, Inc.）語料有 9 百萬個詞。他們也分別與法、德國學者合作，各自採用有 320 萬個詞的法文語料庫和有 500 萬個詞的德文語料庫(Dennis, 2006)，成功建立兩種不同語系的 LSA 語意空間(Quesada, 2006)，驗證 LSA 具有不需使用文法或事先定義語彙的特性，讓 LSA 技術可以不受限於英語系環境之下。因此，非英語的語料庫只要建立好關鍵詞與文件間相對應的共生矩陣，就可利用 LSA 技術建立該語系的語意空間（陳明蕾等人，2009）。

Lemaire、Denhiere、Bellissens 與 Jhean-Iarose (2006)建置一個約 320 萬字的兒童語料庫，其中涵蓋兒童故事和寓言傳說（約 160 萬字）、兒童創作讀物（約

Graesser、Penumatsa、Ventura、Cai 與 Hu (2007)建置的 AutoTutor 系統中，

電腦知識包含電腦硬體、作業系統與網際網路等三個主題，其語料庫是由電腦素養的教科書、課程腳本和 30 篇文章（其中三個主題各 10 篇，合計 30 萬字）

所組成；在物理學的語料庫則是由課程腳本、觀念物理（Conceptual physics）

中有關的 8 個章節(Hewitt, 1998)、6 冊大學主修的應用和生活科學之通識教材、

2 本高等的電磁學教材以及 2 本電子物理教材（約 1 萬字）共同組成，合計有 6,536 個專門名詞(Olde, Franceschetti, Karnavat, Graesser, & the Tutoring Research Group, 2002)。

（2002）蒐集 100 篇新台灣週刊中關於政治類的文章，建立一個約有 1,600 個

蘇義翔（2007）所發展的華語文閱讀摘要系統（Electronic Chinese Reading Summarization, ERCS）也是採用 LSA 技術，首先在網路上蒐集與主題（蜜蜂、

袋熊、糞金龜與蝴蝶）相關聯的文章，蒐集到的篇數分別是 22、10、7 與 11 衡語料庫（Sinica Corpus 3.0），共計 9,277 份文件，500 萬詞，為大型語料來源，

建置步驟為從文件中尋找詞做為矩陣所需要的關鍵詞，此關鍵詞必須在文件中

書與獲得授權的兒童讀物，共 945 篇文章，採用 LSA 技術，建構一個 14,801 詞彙與 1,603 文件（每篇文件約 200 字）的兒童語意空間。劉嘉玲、郭伯臣、

廖晨惠與白鎧誌（2012）從國小三到六年級的國語、社會和自然與生活科技等三個學習領域中，個別挑選文章進行句子效度驗證初探，各年級各有 36 組句子進行語意相似度的比對，發現同篇文章的句子順序兩兩呈現與句子隨機兩兩呈現，其語意關聯程度皆顯著高於不同篇文章的句子隨機方式呈現。一般來說，

同篇文章內的句子會依照文章主題發展而編排，但不同篇文章的句子則會隨著主題不同，其語意相似度會低於文章內的隨機句子，因此結果顯示廖晨惠建立的兒童語意空間符合預期推論。

由上述相關文獻得知，語料庫必須能夠呈現自然真實的語言使用現象，且與研究目的有一定的相關性，內容愈豐富愈好。然而中央研究院建置的平衡語料庫取材是偏向於一般日常生活中常見的用字與文章，涵蓋六大主題：哲學、

科學、社會藝術、生活及文學等，語式則有五類：書面語、演講稿、劇本台詞、

會話以及會議記錄，內容範圍與程度較適合一般的成人。另外，由語言資料協會（The Linguistic Data Consortium）製作的中文十億詞語料庫（Chinese Gigaword Corpus）第二版(Graff, Chen, Kong, & Maeda, 2005; Ma & Huang, 2006)，總計約 8 億詞，取材來源為台灣中央社（約 4 億 9 千萬詞）、北京新華社（約 3 億 1 千萬詞）與新加坡早報（約 1 千 8 百萬詞）等三家中文新聞媒體，其文章內容中的遣詞用字也是較適合一般成人閱讀，較適合應用在成人語意空間之研究。因此，本研究將協助團隊建置一個兒童中文語料庫，透過 LSA 技術建立兒童中文語意空間。除了瞭解兒童中文語意空間的特性外，並評估其效度。

在文檔中以LSA為基礎之兒童中文語意關聯輔助學習系統建置 (頁 22-25)

第二章 文獻探討

第二節 語料庫與語意空間建置

第二章文獻探討

第二節語料庫與語意空間建置