• 沒有找到結果。

第四章 實驗分析討論與結果

4.3 延伸應用 - 學術搭配詞

立 政 治 大 學

Na tiona

l Ch engchi University

高同質性(H) 中同質性(M) 低同質性(L) 同質性極低但頻率高(VL) 名詞(綜合領域) 0~728 728~1456 1456~2184 >>2184 名詞(綜合語言) 0~194 194~388 388~582 >>582 動詞(綜合領域) 0~303 303~606 606~910 >>910 動詞(綜合語言) 0~108 108~216 216~324 >>324

表 4-9 兩種學術字彙列表之字彙卡方值分佈

而就綜合語言特性的學術寫作字彙來說,L Bound 及 VL Bound 內的字彙則是偏向於 ELT 領域的學術寫作字彙。在表 4-1 中可以發現,ELT 領域下的字彙總 token 數,是 CS 領 域和 MED 領域下的 1.2 倍及 1.6 倍左右。也就是說,在三個地域語言的分野下,無論是何 種分野,ELT 領域的字彙量都是佔較多的,這也導致在計算同質性進行頻率的正規化時,

ELT 的字彙還是在頻率表現上較為凸出,這個結果類似在綜合領域的學術寫作字彙,在某方 面頻率上表現特別突出時,造成同質性非常低,而成為了具有特別意義的字彙。同樣地,在 綜合語言特性下L Bound 動詞中的 teach 和 read 字彙明顯地屬於 ELT 領域,VL Bound 之內 的字彙則更為明顯。

4.3 延伸應用 - 學術搭配詞

在上一節中,在最終的實驗結果下,總共擷取出了綜合領域特性與綜合地域語言特性 的學術寫作常用字彙。這些字彙對於一般英語學習者來說,並不是在日常生活中鮮少見到,

用在艱深的學術論文表達的單字,而是在學術寫作之中,甚至是一般的其他領域的英語文章 中,如新聞或小說等,也常常出現的字彙。然而學術寫作與其他寫作分野之間的差異,主要 在於學術寫作上的結構較為嚴謹,字彙與字彙之間的組合的規定也較精簡。為了能讓英語學 術寫作的作者能清楚的了解學術寫作上的字彙組合方式,將本研究 ATC 語料庫中經常使用 的搭配詞以一般學術寫作中最常使用的搭配詞組合以及不同語言特性下的常用搭配詞整理出 來提供給作者作參考。

另一方面,在附錄表七中也包含了兩個子表格,分別代表了以英語為外國語(English as Foreign Language, EFL)地域(台灣及日本)常用的搭配詞與以英語為母語(Native Speaker, NS) 地域(美國)兩種個別經常使用的搭配詞組合。由於是分開進行統計,故在兩個子表格中的常 說,XX 在附錄表六之二代表了所有領域作者常用的 effective/suggested,而在附錄表七之一 中 的 EFL 作 者 風 格 XX 為 this , 在 NS 作 者 風 格 XX 為 effective/suggested/proposed/accessing/hybrid,NS 作者表現風格較為多樣,用字也較深入。

而如NS 作者的 handle/discuss/show/cope with/look into/create/point out/avoid problem 使用兩 字的片語也較所有作者的 handle/discuss/show/identify problem 多。另外,如 beyond the scope of 或是 study utilize 等一般 EFL 作者不常用的風格在 NS 作者中也隨處可見。因此在附 錄表七之二的NS 作者常用搭配詞,不僅可跟 EFL 作者比較,也可跟更一般性的附錄表六中 的常用搭配詞參照,使用者可以視需要學習 NS 作者的寫作風格。然而就英文句子組成而 言,搭配詞的表現極其豐富,在此僅僅列出一小部份使用頻率較高的搭配詞組合,若是想詳 細了解搭配詞的使用,也有相關資源[24]可以參考。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

4.4 本章總結

在本章中, 我們透過了許多實驗方法以及門檻機制的組合搭配,成功地擷取出在學術 寫作上常用的字彙,並且以這些字彙作為核心,在本研究所建立的 ATC 語料庫之中,挑選 出了四類搭配詞的組合供參考。而這些挑選出的學術寫作字彙,與 AWL 最大的差別在於,

AWL 中的字彙,有些部份字彙的組成,基於其在學術語料庫中必需維持一定涵蓋率,導致 這些字彙的使用率相當低。而本研究所擷取出的學術寫作字彙,都是選擇使用頻率高為主,

但在不同領域下仍然具有一定的表現。

另一方面,就兩份字彙列表選出的名詞與動詞而言,兩者包含的 AWL 數量皆約為 30%,也代表著 70%的字彙可以補足 AWL 字彙所沒有的。這些字彙經由本研究的實驗方法 加以驗證,不論是在出現頻率上以及文章的分佈上皆有良好的表現。對學習AWL 的 EFL 學 習者來說,這些字彙擴充了 AWL 以外五成左右的字彙量,提供了更多在學術寫作上可使用 的字彙,同時也列出以這些字彙為核心的常用搭配詞,對於有英文學術寫作需要的研究者或 是學生在進行學術寫作的同時,成為即時性的學習資源與參考對象。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

第五章

結論與未來研究方向

5.1 結論

人類自從有文明開始,便藉著教育將先人的智慧結晶與經驗教訓不斷的延續下去,而 後人則藉由閱讀理解這些文獻典籍的記載,在自己所處的時代不斷的改進生活周遭的事物,

創造更好的生活環境,這些文獻典籍可說是人類演進的重要基石。時代演進至今,學術界成 為實驗研究的重鎮,而以英語為核心的學術論文可說是全世界進行研究交流的重要媒介,在 研究學者專家與企業專家間不停的交流。因此英語學術論文的寫作成為踏入世界性研究交流 的基本門檻。但是對於以英語為非母語的研究者來說,在進行英語學術寫作時,為了要精確 的表達自己的研究成果,字彙的選擇經常成為棘手的問題。另一方面,對英語學習者來說,

學術字彙列表(AWL)的提供固然是一項幫助,但 AWL 在總量上固然有限,同時部份字彙在 表現上也有較不實用的狀況。因此本研究針對英語學術寫作與英語學習上遭遇之困難,提出 了實用性高且能補強 AWL 的一份字彙列表,並且以這些字彙為基礎,萃取出常用的搭配詞 使用方式,提供英語學術寫作和英語學習上即時性的協助。

學術寫作本身具有用字精確與描述簡扼的特性,也充分表現在學術寫作字彙上面。而 學術寫作字彙在學術領域文章中,無論是出現的頻率以及文章的分佈狀況,都具有良好的表 現。因此我們從建立跨領域學術論文語料庫為基礎,結合資訊科技與統計模型的方式,從非 英語學術專家的另一個角度,挖掘出屬於學術寫作共通的實用字彙。

英語學術寫作字彙在界定上並無明顯的定義,即使是建立 AWL 的 Coxhead 也是從學 術語料庫中經由分析歸類而得。本研究由觀察學術論文句子的組成中最小組合單位搭配詞為 基礎,初步排除了搭配詞中屬於關係與修飾屬性的介系詞、形容詞以及副詞,而以構成搭配 詞意義的動詞與名詞為主,透過關鍵詞擷取技術取出了搭配詞中最常使用的 PoS Tag

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

Patterns,隨即將擷取出的 Patterns 分解成動詞與名詞的候選詞,並且依照領域與詞性分開,

作為初步篩選可能符合研究目的之結果。

根據擷取出的候選詞與及交集的字彙集合,作為 S(D)和 S(D*)兩種不同的實驗樣本,

輸入多指標為主的關鍵詞分析模型進行分析,在呈現不同趨勢的每個指標中,依指標值排序 而選出對著於 AWL 等量或倍數的數量並指標值由高至低的字彙,每一份選出的字彙就成為 該領域下獨具意義的字彙。而藉由對應到研究目的,將不同指標序字彙再做進一步的交集,

可得到該領域下代表的學術常用字彙。

然而在單一領域適用之學術常用字彙並無法適用於所有的學術寫作範圍。為了達到通 用性的效果,我們採用統計上常用來計算同質性的方法,以卡方分佈(Chi-Square Measure)對 字彙逐一檢驗,將字彙於各領域下的出現頻率作為樣本資料,計算集合為三個領域交集下的 單一字彙分佈狀況,當卡方值數值低時,表示字彙在各領域分佈較為平均,其同質性較高。

但單獨計算字彙之同質性可能會導致最終的結果字彙偏向在領域之頻率都偏低但同質性高的 字彙,故需另外一個輔助性的Threshold 來修正實驗結果。

最終以在各領域出現頻率大於 140,並且同質性高的 S(D*)候選詞,在選擇 AWL 數量 之 1.5 倍後代表各指標意義的字彙列表交集而成的字彙為主,同時為了補足頻率高而同質性 低但可能為學術寫作常用字彙,將 S(D)的候選詞也依上述條件選出的結果,與 S(D*)之結果 進行聯集而得到最終的字彙列表。其中名詞有246 個,動詞則有 147 個,這些字彙可作為在 學術寫作上與英語學習上 AWL 的補遺,同時也提供以這些字彙為主的常用搭配詞,能讓使 用者更快速的學習這些字彙的使用。

5.2 未來研究方向

本研究是以關鍵詞擷取技術配合指標分析模型對多領域學術論文語料庫進行剖析,而 在關鍵詞擷取部份是採用 PoS Tag Patterns 作為擷取的目標,取出佔多數的名詞加動詞與動 詞加名詞的組合。但英文句子的表現上詞性的組合相當多種,而且在組成上也不限於最少的 三字彙搭配詞。基於此兩個因素,『N-gram Patterns』與『多詞性關係組合』可作為我們未 來的研究方向。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

I. N-gram Patterns:N-gram 為 N 個字彙組成的片斷,其中 N 為正整數,N=1 時稱 為 unigram,N=2 時為 bigram,N=3 叫做 trigram,以此類推。在本研究中,N 介 於2 到 3 之間。當 N 變大時,也意味著字彙之間的組合隨之增加,字彙間的關係 也隨之複雜。但是透過文法中詞性修飾與組成的分析,可精確的取出以學術字彙 為核心的字彙組成片斷。除了 N-gram 外,自然語言處理中針對 Chunks 或是 Noun Phrases 的類似單位都常用於關鍵詞擷取技術的應用上。

II. 多詞性關係組合:英文句子組成中,介系詞主要用於表示與承接其他不同詞性之 間的關係。即使是最常用的動詞加名詞的搭陪詞,最後面仍須接上介系詞與後續 內容相連,而像是介系詞加名詞加介系詞此類的搭配詞也不在少數。除了介系詞 外,副詞常用於修飾動詞,而名詞常用形容詞修飾,這些屬於修飾性質的詞在學 術寫作上也經常被使用,如在 AWL 的 570 字組成中,就有 101 個字彙是由這些

II. 多詞性關係組合:英文句子組成中,介系詞主要用於表示與承接其他不同詞性之 間的關係。即使是最常用的動詞加名詞的搭陪詞,最後面仍須接上介系詞與後續 內容相連,而像是介系詞加名詞加介系詞此類的搭配詞也不在少數。除了介系詞 外,副詞常用於修飾動詞,而名詞常用形容詞修飾,這些屬於修飾性質的詞在學 術寫作上也經常被使用,如在 AWL 的 570 字組成中,就有 101 個字彙是由這些

相關文件