實驗結果之分析討論 - 實驗分析討論與結果 - 以型態組合為主的關鍵詞擷取技術在學術寫作字彙上的研究

第四章實驗分析討論與結果

4.2 實驗結果之分析討論

用。在此以附錄表一的資料為基礎，同時加入同質性區間分隔與頻率 Threshold 分隔之後的 CS 領域動詞候選詞分佈結果如附表二。徵，在頻率之 Threshold 上，Threshold 大於 140 的字彙較符合上述條件，因此 Threshold 大於 140 之依各指標並且依照相同區間(同一 Bound 之間進行交集)將表二的字彙作交集，所得

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

4.2.1 實驗樣本的差異性

在4.1.2 節所進行的實驗方法之中，我們分別對各領域分別候選詞 S(D)以及各領域交集候選詞 S(D*)此兩份樣本資料分別進行實驗。以研究目的而言，直接對領域交集之後選詞 S(D*)進行篩選或許就可以達到求得學術寫作上領域共通的字彙，是個很直覺式的方法。但是在本研究中開始對候選詞進行統計時發現(請參照下表)，同時於每個領域都出現之候選詞 S(D*)數量，都只佔了各領域候選詞中不到一半的數量，在名詞部份領域中甚至佔不到三分之一。若是只選擇交集部份來進行實驗，就意味著必需捨棄大量的可能性。

CS ELT MED Intersection

名詞數量 1104 1622 1689 519

非三領域共通名詞 585 1103 1170 0

動詞數量 719 753 709 339

非三領域共通動詞 380 414 370 0

表 4-7 各領域候選詞與非領域共通候選詞數量統計

再者，考慮到即使是在學術領域這個限定範圍之中，各個領域在寫作上的呈現方式有所不同。舉例來說，在 CS 領域下，network 這個字彙是使用率相當高的字彙，經常出現於研究方法或實驗設計的論述之中，但是在其他兩個領域之中使用率則相對降低，因此就本研究來說 network 的同質性並不高。然而 Coxhead 所提出的 AWL[22]之中，許多如同 network 此類字彙仍然是屬於 AWL 的其中之一。故在一開始就只取 S(D*)作為實驗資料樣本，可能會導致錯失許多領域共通但具有領域集中特性的字彙。

如上述所說，單憑同質性的驗證也可能造成判斷錯誤。由於同質性的計算是以頻率之卡方分佈為作為基準，當某字彙在三領域中之出現頻率都很低時，所得到的同質性相對就非常高，但這種字彙並不符合需求。另一方面，當某字彙在各領域中頻率都很高時，同質性也就相對低落，尤其是如上述字彙 network 之狀況，在三領域中都有一定的出現頻率，但在 CS 領域中頻率卻相較高出許多，而其同質性卻成為候選詞中最低的一群。因此在同質性和

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

出現頻率的選擇上需取其平衡點，故我們取在頻率上具有一定水準之上的字彙但同質性低的字彙也納入最終結果的考量。

4.2.2 不同實驗樣本之實驗結果

在上一節中，我們以各領域分別候選詞 S(D)以及各領域交集候選詞 S(D*)分別進行實驗，而各領域分別候選詞 S(D)與各領域交集候選詞 S(D*)之間的差別主要在於，S(D)是分別領域下進行指標排序後最後透過指標相互交集得到的結果，而 S(D*)則是一開始進行候選詞交集、指標排序而交集，可說是經過了兩次的交集程序。然而在 S(D)的實驗結果上，由於各領域候選詞在不同指標值表現下差異甚大，最後經由頻率篩選交集後得到的字彙為數較低，不過成為能該領域下較常使用的代表字彙，這是S(D*)所無法達成的。

另一方面，S(D*)在第一次的交集程序上，萃取出了能夠於多種領域表現良好的字彙，

也因此再經過指標排序後第二次交集出的字彙與各指標單獨計算所得之字彙並無太大的差別，這也表示在基於研究目的基礎上，先行對候選詞交集挑選出領域共通的候選詞的效果上，明顯大於直接對各領域候選詞進行指標排序後交集的效果。但在最終結果的選擇上，若是只選擇 S(D*)的實驗結果作為最終的研究成果，只能選擇到同質性高而頻率高的字彙，部份分佈頻率高而同質性低的邊緣化字彙如 network 等將會被忽略，而這些字彙在各領域中佔了相當少數。

而就五個指標分別來討論，指標的表現上也是有所差異。舉例來說，下表節錄在附錄表二中的 CS 領域動詞候選詞在頻率大於 10 下的同質性分佈來說，各指標都是選出前 213 個代表性的候選詞然後分別依照區間進行分隔。但是在總數 213 個動詞之中，可以發現像 Mr 指標只選出在三個領域中具有同質性的動詞一共 78 個。相對地，Ar 指標則可選出 190 個動詞，Pr 指標則可選出 163 個動詞，至於 Fr 和 Vr 的指標表現則是雷同。而在附錄表二中，若是將頻率的 Threshold 提高後，各指標選出的動詞也隨之遞減，但是遞減的程度也是不會影響各指標的表現，因此可以推斷，就指標本身的學術字彙篩選效果上，是 Ar > Pr >

Fr ≈Vr > Mr。這效果不僅僅限於 CS 領域動詞底下，在所有的實驗資料都呈現相同的效果。

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

H(0~303) M(303~606) L(606~910) VL(>>910)

Ar_(共 190 個) 139 34 10 7

Fr_(共 130 個) 119 8 2 1

Vr_(共 120 個) 113 5 2 0

Mr_(共 78 個) 72 5 1 0

Pr_(共 163 個) 139 19 3 2

節錄附錄表二頻率大於 10 的動詞候選詞於各指標與同質性區間下之數量分佈

總結本節的內容來說，我們以各領域分別候選詞 S(D)以及各領域交集候選詞 S(D*)以指標模型和交集的方式混合使用來進行實驗，試圖藉由兩種方法的優點結合而得到最好的結果。但只就單一方法而論，在求得學術共通寫作字彙的前提下，先對各領域候選詞進行交集的處理方式(也就是 S(D*)的資料)，會大於單獨使用指標的效果。而就指標模型本身的方法來說，五個指標的表現則是各有優缺點，當中以Ar 效果最佳，Mr 的效果則最差。

4.2.3 學術寫作字彙的篩選機制

基於上述的討論與分析，為了達成兩個篩選準則同質性與頻率皆高的表現，並排除同質性高而頻率低的狀況，同時考慮到語料庫各領域的組成以博碩士論文佔多數，在文章字數相當多時學術字彙出現的機率較高，因此我們將作為第二篩選準則之頻率提至最高，在四個頻率的 Threshold(10、35、70、140)之中選擇最高的 140 成為最終的 Threshold，相當於選出的學術字彙在每篇學術文章中至少出現一次。如此一來，可在同質性和頻率皆可兼顧的狀況下，挑選出較為適當的學術寫作字彙。

接著，在實驗一開始挑選各指標的排名較高代表字彙的數量選擇上，於 AWL 等量的 S(A)與 AWL 數量 1.5 倍的 S(A+)兩者的考量上，當候選詞的數量固定時，交集後的字彙總數取決於每個指標選出的字彙的數量。而從附錄表二中的結果來看，Mr 此指標會選出較少的字彙作為此指標的代表字彙，導致在 CS 領域動詞所得到的字彙相當稀少，而指標 Mr 本身代表的特徵為在單一文章中字彙的出現次數較多(請參閱表 4.5)，就本研究以博碩士論文

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

為主的語料庫來看，Mr 在篩選出學術寫作常用字彙的目的上是必要的，同時為了避免結果選出來的字彙過少如同附錄表三中的 CS 領域動詞一樣，因此我們選擇 S(A+)數量對各指標序字彙列表交集的結果成為我們最終的結果。

最後，考慮到頻率上表現好因同質性而被邊緣化的字彙，我們則取以各領域分別候選詞 S(D)所得之各領域代表性學術寫作常用字彙與各領域交集候選詞 S(D*)得到的領域共通學術性寫作字彙，將此兩份字彙列表取聯集，也就是同時顧及字彙在單一領域和共同領域的表現，並非只考慮共同領域 S(D*)的部份。根據我們的準則選出來的結果，名詞共有 246 個，

而動詞有 147 個，如附錄表四所示。同時也將實驗方法開始至篩選出最終結果字彙的流程統一整理，如下所示：

1. 將各領域分別候選詞 S(D)與各領域共通候選詞 S(D*)分別進行五種指標 Ar、Fr、

Vr、Mr、Pr 的計算。

2. 分別對 S(D) 與 S(D*) 的指標值計算結果，選出每個指標由高而低排名於與 AWL1.5 倍數量 S(A+)之前(在名詞中選取前 496 個，動詞中選取前 320 個，可參閱表4.4)的字彙，作為具有該指標特性的代表字彙。

3. 由上一步驟 S(D)與 S(D*)的得到的字彙，分別計算該字彙的同質性。計算方式為統計學中常用的卡方分佈計算，以字彙在三領域中的頻率作為樣本資料，三個領域為一個集合計算，而各領域中的字彙頻率須經過正規化計算，也就是將原始字彙頻率除以該領域字彙量的步驟，並將各指標代表字彙依照同質性由高而低分佈。

4. 為了更清楚地了解字彙同質性的分佈狀況，同時也希望字彙能夠依照同質性高低被學習者有效利用，從同質性高之字彙開始學習。將各指標代表字彙的動詞與名詞分別依照同質性數值的四個區間(H、M、L、VL)排列。

5. 考慮到同質性本身的不足，再加入頻率(10、35、70、140)的 Threshold 作為門檻，解決頻率低而同質性高的問題。

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

6. 最後，將 S(D)與 S(D*)中分別依指標和同質性區間排序，同時在過濾掉頻率低於 140 以下的字彙後，取出五個指標中共同出現之字彙，作為兩者的結果，並將此兩者得到的字彙做聯集，得到最終所求的學術寫作常用字彙列表，如附錄表四所示。

4.2.4 基於地域語言特性的學術寫作字彙

於第三章曾經提到，語料庫在設計上為了後續分析之用可分為領域特性以及語言特性兩種維度的語料庫建構方式(請參照圖 3-2)。而在上一節中我們得到了以綜合領域之間的特性為主的學術寫作字彙。同樣地，我們也仿照上一節的方式，擷取出了綜合三個地域語言特性的學術寫作字彙附於附錄表五。綜合兩份學術字彙列表來討論，可以發現兩份字彙中所包含的 AWL 數量都大約將近三成左右，在選擇結果與 AWL 的相交範圍的表現上並無太大差異，如下表4-8 所示。

名詞數量包含AWL 名詞數動詞數量包含AWL 動詞數

綜合領域特性 246 69 147 41

綜合語言特性 183 47 109 29

表 4-8 兩種學術字彙列表數量與所包含 AWL 數量

然而，就同質性的表現上，由下表 4-9 可以發現，在綜合領域下，無論是名詞或是動詞的卡方值數值分佈都比綜合語言下的字彙大出許多，這是因為在我們的 ATC 語料庫中字彙在不同領域之間出現的頻率相差極大，相較於在不同語言地域之下的表現。舉例來說在附錄表四中同質性極低但頻率高的字彙 learn，明顯地在 ELT 領域下的出現頻率會比在 CS 及

在文檔中以型態組合為主的關鍵詞擷取技術在學術寫作字彙上的研究 - 政大學術集成 (頁 41-47)

實驗結果之分析討論

第四章 實驗分析討論與結果

4.2 實驗結果之分析討論

‧ 國

立 政 治 大 學

‧

4.2.1 實驗樣本的差異性

‧ 國

立 政 治 大 學

‧

4.2.2 不同實驗樣本之實驗結果

‧ 國

立 政 治 大 學

‧

節錄附錄表二 頻率大於 10 的動詞候選詞於各指標與同質性區間下之數量分佈

4.2.3 學術寫作字彙的篩選機制

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

4.2.4 基於地域語言特性的學術寫作字彙

第四章實驗分析討論與結果

立政治大學

立政治大學

立政治大學

節錄附錄表二頻率大於 10 的動詞候選詞於各指標與同質性區間下之數量分佈

立政治大學

立政治大學