• 沒有找到結果。

第四章 實驗分析討論與結果

4.1 實驗資料與實作方法

立 政 治 大 學

Na tiona

l Ch engchi University

第四章

實驗分析討論與結果

本章將對第三章研究方法之結果進行實驗分析並討論。4.1 節提出實驗相關測試資料與進行 實作之方法。4.2 節則進行實驗結果的討論與分析,並提出學術寫作上常用的字彙列表為本 研究的結果。4.3 節則以 4.2 節所得之結果,衍生出在語料庫中之常用搭配詞。4.4 節總結本 章。

4.1 實驗資料與實作方法

本文以第三章研究方法所得之各領域之學術字彙候選詞作為實驗資料進行實驗分析,

每一候選詞均有 Ar、Fr、Vr、Mr、Pr 五種指標索引值,我們分別對每項指標值個別進行實 驗,探討這些候選詞在整個語料庫中之表現與分佈狀況。然而由於語料語本身資料龐大,若 直接將候選詞與原始語料庫之字彙對照,便會造成這些候選詞在語料庫之中成為相當稀疏之 點狀分佈,故需是先對語料庫本身進行預先篩選。

4.1.1 實驗資料說明

目前整個語料庫原始資料包含 420 篇學術論文共有 79,874 個詞形(word type) 與 7,652,876 個詞次 (word token),經過 stop word 過濾(共 429 個詞形)的程序之後則為 79,445 個詞形與3,649,156 個詞次,這些詞次依領域分佈如下表 4-1:

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

ALL CS ELT MED 詞次(Token) 3,649,156 1,188,794 1,525,436 934,926

文件數(Documents) 420 140 140 140

表 4-1 AcademicThesisCorpus(ATC)語料庫領域別文件詞次數量分佈

而所有詞次經由詞性標註後,其中總共包含了名詞55,141 個和動詞 17,233 個詞次。而字彙 的頻率分佈大略如下:

字彙出現頻率

> 201 51 ~ 200 21 ~ 50 11 ~ 20 8 ~ 10 6 ~ 7 3 ~ 5 2 1 字彙

總量 2,294 3,661 4,089 4,232 2,712 3,056 10,440 10,670 38,291 名詞

數量 1,616 2,454 2,927 3,104 2,067 2,205 7,694 7,263 25,810 動詞

數量 568 583 622 617 368 427 1,405 1,302 4,746

表 4-2 ATC 語料庫字彙頻率分佈

由上述字彙頻率分佈可知,語料庫的原始字彙裡在頻率 5 之下的佔了 74.3%,而在頻率 10 以下則佔了 81.5%,分佈集中於低頻率字彙。原因是由於語料庫原始資料收集是採各領域隨 機收集的方式,故主題較為分散,這也是造成字彙數量多且頻率低的原因。另一方面,我們 也預先過濾了 stop word 等佔了原始語料庫 52%以上的一部份高頻率字彙,也是導致字彙頻 率集中分佈於低頻率區塊的原因。

在一般關鍵詞擷取的方法中,由於關鍵詞本身具有高頻率的特性,因此為了精確的擷 取出關鍵詞同時減少不必要的字彙,會過濾掉部份低頻率的字彙,或是只取統計上頻率較高 的部份字彙進行關鍵詞擷取。由 Coxhead[22]提出的學術字彙列表(AWL)中也提到說,學術 字彙在一般學術語料庫中所佔的文件頻率涵蓋率約可達10%,也就是約十篇學術文章中至少 有一篇會有學術字彙出現,而本研究中每個領域文章分別為 140 篇,以 Coxhead 的標準來

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

看,學術字彙在 140 篇文章文件頻率應該是在 14 以上,因此相對的單一學術字彙的詞頻至 少也是在 14 以上,然而考慮到實際出現狀況上可能有些許的誤差,在此也稍微放寬篩選的 標準,語料庫中詞頻在 10 以下字彙則將其忽略不予計算。故由表 4.2 可得知,詞頻在超過 10 的名詞有 10,101 個,動詞則有 2,390 個。在這些名詞與動詞中,於三個領域皆出現過的 名詞有 1,980 個,動詞則是 1,040 個,此資訊將成為我們進行實驗的主要依據,同時整理如 下表:

ALL CS ELT MED Intersection

名詞數量 10,101 4,112 5,493 4,389 1,980 動詞數量 2,390 1,282 1,669 1,168 1,040

表 4-3 ATC 語料庫領域別動詞名詞數量分佈(出現頻率 Fr > 10)

接著,我們以AWL 作為數量參照的標準,而取出與學術字彙列表等量以及倍數以上的 字彙進行實驗。AWL 一共包含 570 個單字,其中副詞與形容詞佔了 101 個,剩下的 469 個 字彙中,由於考慮到有些字彙可同時作為名詞和動詞使用,故在此我們也將此狀況納入考 量,因此包含了重複的字彙中,作為名詞的有331 個而當作動詞的有 213 個。

在上一章中,藉由PoS Tag Patterns 選出的候選詞(請參照表 3-1)為研究的初步成果。然 而這些候選詞,不僅僅是數量過於龐大,而且也非完全是學術寫作常用的字彙。正因如此,

這些候選詞仍需要特定的方法來進行精確的實驗才能達到標準,故將這些候選詞套用於指標 分析模型,依指標的數值分別對字彙排序。然而在經由指標排名排序過後的字彙,卻無一個 適當的比較對象,故於此我們取與其性質相近的 AWL 等量以及 1.5 倍的字彙量兩種不同的 數量單位進行實驗比較,較能凸顯出其效果。以名詞來說,AWL 中名詞有 331 個,因此我 們取名詞候選詞各指標前 331 個與前 496 個(1.5 倍),來比較各指標值偏高所取出之字彙與 學術字彙列表在語料庫中分佈的情形,同樣地動詞部份也選取各指標前213 與前 320 個候選 詞與學術字彙列表的分佈做比較,並且也將把各領域交集的部份以相同的方式進行實驗。下 表總結各項文中所提及之數據如下:

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

CS ELT MED Intersection AWL*1 AWL*1.5 名詞數量 1104 1622 1689 519 331 496

動詞數量 719 753 709 339 213 320

簡稱 S(D) S(D*) S(A) S(A+)

表 4-4 領域別候選詞數量與 AWL 數量統計

4. 1. 2 實驗方法

接著本節說明進行實驗的方法。首先在此先對欲進行實驗的對象分別進行定義說明,

在上表4-4 中的統計數據分別定義如下:

I. AWL 中所包含的名詞與動詞之字彙列表,目的是用來與等量的各領域動詞與名 詞當作 threshold,並且個別對其動詞和名詞跟候選詞中之動詞和名詞做分佈狀 況之比較,以下簡稱為S(A)。

II. 學術字彙中名詞與動詞原始數量的 1.5 倍數量,取其 1.5 倍作為 threshold 是與 S(A)之統計結果提供另一種的標準作參考,只取數量而無實際字彙,簡稱為 S(A+)。

III. 三個領域 CS、ELT 與 MED 分別的候選詞樣本資料的集合, 簡稱為 S(D),此 集合目的是求得分別領域中為學術字彙的詞。

IV. 候選詞中三領域共同交集而成的名詞與動詞之集合,,簡稱為 S(D*),目的是為 了求得各領域共通之學術字彙。

由上述定義可知,進行實驗之內容有 S(D)、S(D*)與 S(A)三種,S(A+)只取其數量而無內 容。而S(A)作為 S(D)與 S(D*)之參照對象,在 S(D)與 S(D*)都有 S(A)與其作分佈的比較。

實驗步驟的第二步則為指標值的計算。在第三章曾經提及到,可當作適當指標計算的 有Ar、Fr、Vr、Mr 與 Pr 五種指標值。在此說明計算方式與範圍:

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

I. Ar:Ar 為定義範圍內的字彙於文章總數中出現的次數,也就是一般的常見的文 件頻率(Document Frequency)。以 S(D)來說,每個領域之 Ar 最多可達 140,在 S(D*)則以整體語料庫來算,最高值為 420。

II. Fr:Fr 為最常見的語料庫統計資訊,即為某字彙在定義範圍文章內的出現頻率 總數,同樣地在S(D)與 S(D*)中有所差異。

III. Vr:Vr 為每個字彙平均出現頻率,定義為 Fr/Nr。Nr 代表的是在不同範圍內之 關鍵詞總數,在 S(D)與 S(D*)內也分別隨之變化,Vr 值高代表此字彙為主題中 心的、領域共通的或是輔助性質的。然而在第三章中曾經提到,由於 Nr 在本研 究中則因為年份 l 固定的關係,Nr 因而成為常數,同時 Vr 所得到的值會類似 Fr。因此在此作調整。各領域候選詞計算出 Vr 後,會依照候選詞 Vr 值由高而 低排序,並計算各候選詞之間的 Vr 值差距。當出現 Vr 值差距大於其他候選詞 兩倍以上的字彙時,便將此字彙包含 Vr 值高於此字彙的所有字彙先行剔除,去 除 Vr 值過高的字彙,使得透過 Vr 值選出的字彙是偏向領域共通而非主題中心 的,也因此選出的詞彙與Fr 所選出的詞彙有所不同。

IV. Mr:Mr 為每篇文章中該字彙的出現頻率,定義為 Fr/Ar。此指標的計算類似 TF-IDF,強調單一範圍下字彙的重要性程度,同樣依 S(D)與 S(D*)而變動,Mr 值高代表此關鍵詞出現頻繁。

V. Pr:Pr 為範圍空間下字彙的分佈密度,定義為 ln(Fr*Nr)。在 S(D)與 S(D*)之中 隨之不同,Pr 值高代表此關鍵詞為領域共通的。如同 Vr 值的計算方式,各候選 詞也在計算出 Pr 值差距之後,將大於其他部份的候選詞 Pr 差距值兩倍以上的 字彙先行剔除,也因此選出的詞彙與Fr 所選出的詞彙有所不同。

經過上述的定義,對實驗內容 S(D)與 S(D*)計算其指標值後,分別依照上述五個指標值之術 值由高至低進行排序,可以得到單一領域S(D)與共通領域下 S(D*)之字彙列表。

透過計算指標值之結果,實驗的第三個步驟是在 S(D)與 S(D*)的結果中,取出各指標 值排序後數值較高的字彙,至於取出的數量則是參考 S(A)與 S(A+),取兩種數量分別來作比

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

較。以 S(D)中的 CS 領域部份作為例子,以動詞來說,整份候選詞字彙列表經過指標值計算 字彙總數仍為 719 個,接著此份候選詞列表依照每個指標值分別排序之後,取出等同於 S(A) 與 S(A+)之兩種數量,也就是五個指標值分別取出排名前 213 個字彙與排名前 330 個字彙,

而我們總共可以得到 S(D)中三個領域加上 S(D*)共四份集合中包含動詞和名詞的八份指標序 字彙列表, 此結果可說是經過各指標值篩選出之第二階段之候選詞。附錄表一為 CS 領域 下動詞取與 AWL 等量數量 S(A)之指標序字彙列表,作為所有指標序字彙列表之代表(因資 料量過於龐大,在此取一部份表示),而我們也取 AWL 作為對照,作為 AWL 中的動詞字彙 分佈與各指標選出的動詞字彙分佈之對照。

雖然目前已經得到了進一步篩選的指標序字彙列表,但這些列表仍然無法作為我們最 終的結果。其原因在於指標分析模型中的五個指標即使具備了篩選出字彙成為關鍵詞的能 力,但根據各指標本身的定義所擷取出的字彙與本研究所追求的一般性學術寫作字彙的定義 不盡相同,仍然需要另一種符合研究目的機制對這些指標序字彙列表作更精確的過濾。

學術寫作上共通且經常使用的字彙,依照字面上的定義即為『在學術領域下之各分野 都可能出現的字彙,並且字彙頻率本身具有一定水平之上』。同時在 Coxhead 的研究中[22]

也提到,學術字彙在學術各領域分野的涵蓋率約為 10 %,也就是代表說這些跨領域之學術 字彙在各領域的分佈是均勻分佈,並不會只在單一領域表現突出。基於上述的原則,接下來 的實驗步驟則針對指標序字彙列表進行字彙跨領域分佈,也就是單一字彙在不同領域之同質

也提到,學術字彙在學術各領域分野的涵蓋率約為 10 %,也就是代表說這些跨領域之學術 字彙在各領域的分佈是均勻分佈,並不會只在單一領域表現突出。基於上述的原則,接下來 的實驗步驟則針對指標序字彙列表進行字彙跨領域分佈,也就是單一字彙在不同領域之同質

相關文件