第三章 研究二、四種取向建構之適讀性模式 的開發與比較
第二節 結果與討論
研究二透過巢套交叉驗證選擇出四組模式最佳的超參數,並比較四組模式 在三種不同類型文本(國語、社會、全部課文)的正確率。
壹、參數選擇結果
研究二共比較四種不同模式,共有20 組不同的模式參數。每組模式參數都 在三種不同類型的語料中,經過5 次不同的交叉驗證得到 5 個訓練正確率、以 及5 個測試正確率。所有交叉驗證的結果整理如表 2.4。以下將分別討論各種不 同模式在不同參數下的驗證正確率結果。
在線性迴歸模式中,在不同的文本類型中,均呈現正規化係數愈低,測試 正確率愈高的趨勢。在全部課文的語料類型中,當正規化係數為0.05 時,測試 正確率為.44;係數為 0.10 時,正確率為 0.42,當係數為 0.20 時,正確率為 0.36。在國語課文的語料類型中,當正規化係數為 0.05 時,測試正確率為.43;
係數為0.10 時,正確率為 0.38,當係數為 0.20 時,正確率為 0.31。社會課文的 語料類型中,當正規化係數為0.05 時,測試正確率為.47;係數為 0.10 時,正 確率為0.43,當係數為 0.20 時,正確率為 0.39。本研究最後選擇在所有文本中 具有最高測試正確率的正規化係數(0.05)作為線性迴歸的超參數。。
在支持向量機模式中,三種模式的超參數亦有接近的正確率表現。支持向 量機所比較的參數為懲罰係數為0.01、0.1、和 1.0 時之模式正確率表現。在全 部課文的語料類型中,當懲罰係數為0.01 時,測試正確率為.50;係數為 0.1 時,正確率為.38;係數為 1.0 時,正確率為.48。在國語課文中,在各懲罰係數
下之正確率皆為.38。在社會課文中,當懲罰係數為 0.01 時,測試正確率 為.61;係數為 0.1 時,正確率為.61;係數為 1.0 時,正確率為.59。本研究最後 選擇之懲罰係數0.1 作為最佳的模式超參數。
在主題模式中,共有10 組不同的超參數組合,分別是 2 種不同的主題模式 訓練語料來源;以及不同語料訓練來源中,分別有5 種不同的主題數。從交叉 驗證結果中可發現,不管是在哪一種文本類型(國語、社會、全部),以課文當 作主題模式之訓練來源的測試正確率,均低於以平衡語料庫作為訓練語料來源 之正確率。在平衡語料庫的主題模式中,主題數愈多的預測表現會愈好,故最 後本研究選擇以平衡語料庫建立主題數為400 的主題模式作為最佳模式。
上述結果透露出主題模式的來源語料與適讀性預測的有趣關係。主題模式 的訓練語料某種程度上代表其主題分配所在的語義空間,就直觀上而言,此預 測作業既然是預測課文的適讀性,以課文本身當作主題模式的來源應有助於預 測作業,但交互驗證的結果並不符合這項預期。然而,主題模式的估計過程需 從詞彙的出現頻率估計主題的詞彙分配,故詞彙本身在語料庫的數量也和主題 空間的穩定性息息相關。以語料庫大小而言,平衡語料庫是百萬字規模的語料 庫,但全部課文僅約30 萬字。兩者的語料規模可能對主題模式應用在適讀性預 測作業的結果有很大的影響。
深度學習模式有4 項超參數,亦即詞彙嵌入層需要多少嵌入維度。在四組 超參數(維度為20、50、100、200)中,維度為 100 時的測試正確率表現高於 其他參數。維度100 之參數在全部課文的測試正確率為 0.57、在國語課文中為 0.41、在社會課文中正確率為 0.75。故最後深度學習模式以維度 100 作為最佳 之嵌入層維度。
貳、模式正確率
經過內層交叉驗證的參數選擇階段後(交叉驗證結果請見表3.2),本研究 共選出4 組最佳超參數分別代表上述四個模式:分別是線性迴歸的正規化係數 使用0.05;支持向量機的懲罰係數為 0.1;主題模式使用平衡語料庫為訓練語 料,主題數設定為400;深度學習之嵌入層維度為 100。
此4 組模式進入外層的交叉驗證模式評估階段。在這階段中,各模式使用 內層交叉驗證的全部資料作為訓練資料,並預測從未「看過」的測試資料。各 模式在測試資料的正確率整理如表
3.3。
此四模式都分別計算它們在不同文本類型(國語、社會、全部課文)的訓 練和測試正確率。在全部課文的文本類型中,正確率最高的是深度學習(M = 0.62)、其次是支持向量機(M = .56),主題模式的正確率則較低(M = 0.37)。
線性迴歸的正確率亦較低(M = 0.38),該模式選擇了 32 個變項,包括字頻
(第1、50 百分位數)、字頻排序(字頻排序在 1-800、3000 以上的字數比 例)、字筆畫數(第2、3 四分位數)、子句長的中數、內容詞重複指標(局部與 脈絡)、名詞局部重複指標、句長(第3 四分位數)、詞長(第 2 四分位數)、詞 頻排序比例(在5 萬到 10 萬間)、句法樹最大深度、罕見片語語式頻率(第 3 四分位數)、名詞修飾詞數、詞彙語意數(第2、3 四分位數)、形容詞比例、被 字句比例、連接詞(因果、目的、轉折、遞進)比例、動詞(所有動詞、能願 動詞、使令)比例、名詞比例、代名詞比例、詞類詞例比、動詞片語比例、和 動詞比例。
在國語課文的文本類型中,正確率最高的是線性迴歸(M = 0.55),其次是 深度學習(M = 0.48),次之是支持向量機(M = 0.41)和主題模式(M = 0.32)。線性迴歸模式在國語課文中選擇出 27 個變項,分別是字頻排序(排序 在800 以下、和排序在 3000 以上)、字筆畫數(第 1 四分位數)、子句長(第 1
四分位數)、內容重複指標(局部與脈絡)、名詞重複指標(局部)、句長(第 1、3 四分位數)、詞頻(第 75 百分位數)、詞長(第 2 四分位數)、詞頻排序比 例(排序在10 萬以上)、最大句法樹深度、名詞修飾詞數、詞彙語意數(第 2、3 四分位數)、連接詞(全部、因果、解證、目的、假設、轉折、選擇)比 例、內容詞功能詞比、名詞片語比例、詞類詞例比和動詞片語比例。
在社會課文的文本類型中,正確率最高的是深度學習(M = 0.77)、其次是 同屬低輸入透明度的主題模式(M = 0.67)。高輸入透明度的支持向量機的正確 率次之(M = 0.54)、線性迴歸的正確率則較低(M = 0.48)。線性迴歸模式在社 會課文中選擇了28 個變項,包括字頻排序(字頻排序在 1-800)、內容詞重複指 標(局部、脈絡)、名詞局部重複指標、語意重複指標(局部)、句長(第3 四 分位數)、詞長(第2 四分位數)、詞頻排序比例(在 5 萬到 10 萬間)、句法樹 最大深度、罕見片語語式頻率(第3 四分位數)、名詞修飾詞數、詞彙語意數
(第2、3 四分位數)、主要動詞前詞數、形容詞比例、被字句比例、連接詞
(因果、目的、轉折、遞進、選擇)比例、內容詞比例、動詞(能願動詞)比 例、名詞比例、代名詞比例、詞類詞例比、動詞片語比例、和動詞比例。
從上述結果中,深度學習的結果相較於其他模式而言,在各種文本類型中 的表現較為穩定。而線性迴歸模式在國語課文有最高的正確率,但在全部課文 的預測正確率卻較差。同屬高輸入透明度的支持向量機模式在三種不同文本類 型也較穩定,但在國語課文的正確率最低。而主題模式在國語課文和全部課文 的表現都較差,但在社會課文卻有僅次於深度學習模式的正確率。
模式歸類的正確率提供很容易判讀的訊息,但模式預測錯誤的結果也暗示 關於模式的預測特性。尤其適讀性年級的預測雖然是文本歸類問題,但不同適 讀年級並不是完全獨立的類別變項。不同適讀年級的預測應該具有一定程度的 順序關係。在正確率指標的計算上,模式將一篇5 年級的文章預測成 6 年級,
和將該文章預測成1 年級,在正確率指標上都同樣是「錯誤」的,但兩者在適
讀性應用上卻有截然不同的意義。圖3.1 即試圖以各模式在不同文本類型的混 淆矩陣(confusion matrix)呈現各模式的預測適讀性和真實文本年級之間的相 關。
圖3.1 混淆矩陣的橫軸是真實的文本年級,縱軸是各模式(在不同文本類 型下)所預測的適讀年級。如果預測結果是完全正確的,則混淆矩陣的對角線 應該是黑色的方塊,例如圖3.1 右下角的混淆矩陣代表深度學習模式預測社會 課本的結果,是最接近完全正確的結果。從混淆矩陣的結果可以發現,雖然線 性迴歸模式在社會課文的預測表現不高,但從混淆矩陣的結果而言,模式最多 錯誤的地方是無法分辨低年級的文本,而對三到六年級的文本的預測,則可能 會上下相差1 個年級。此錯誤樣態符合社會課文是傳遞領域知識的學科,除了 低年級生活和中高年級社會科行文風格確有不同外,在社會科不同年級文本的 主要差異較傾向顯現於不同領域的主題(如地理、歷史、經濟、政治)等。此 特性亦顯現在主題模式較能掌握社會科適讀年級的結果。從混淆矩陣也可看出 主題模式對社會科的預測正確率較高,僅在二年級的生活科文本犯了較多錯 誤,這和低年級文本屬於生活領域,在文本主題上較不明確有關。
從混淆矩陣的結果中,線性迴歸模式在國語課本中的確有較佳的表現。該 模式大部份的錯誤是把許多一年級文章預測成二年級,以及混淆許多高年級的 文本,暗示高年級國語課文的行文難度已較為接近。過去研究(曾昱翔等人,
2014)亦發現高年級國語課文的用字型態已逐漸接近。另外,從混淆矩陣亦可 發現,雖然深度學習在國語課文上的預測正確率較差,但其預測錯誤大部份僅 與實際文本年級相差一到二年級。由於深度學習模式的輸入特徵是詞向量表 徵,詞彙嵌入層較能掌握的是詞彙共現關係(與詞彙語義較有關係)。不同年級 國語課文的難度更傾向發生在用字用詞、句法結構等屬性上。此研究用的深度 學習模式未納入對語句結構較敏感的網路架構,故深度學習模式應難以掌握到
2014)亦發現高年級國語課文的用字型態已逐漸接近。另外,從混淆矩陣亦可 發現,雖然深度學習在國語課文上的預測正確率較差,但其預測錯誤大部份僅 與實際文本年級相差一到二年級。由於深度學習模式的輸入特徵是詞向量表 徵,詞彙嵌入層較能掌握的是詞彙共現關係(與詞彙語義較有關係)。不同年級 國語課文的難度更傾向發生在用字用詞、句法結構等屬性上。此研究用的深度 學習模式未納入對語句結構較敏感的網路架構,故深度學習模式應難以掌握到