第三章 研究二、四種取向建構之適讀性模式 的開發與比較
第一節 研究方法
研究二將以機器學習的方式選擇不同模式的超參數,並衡量不同模式的表 現。不同模式各有不同的模式超參數(hyperparameter),為讓不同模式分別選 擇較適當的參數以利後續比較,本研究將採用巢套驗證法選擇四模式的參數:
分別是線性模式的正規化參數、支持向量機的懲罰參數(penalty parameter)、
主題模式的主題數和文本來源、以及深度學習網路的模式架構。
表
3.1 四種適讀性模式
透明度類型 高模式參數透明度 低模式參數透明度
高輸入透明度 線性迴歸 支持向量機
低輸入透明度 主題模式 深度學習
壹、適讀性模式
本研究以輸入透明度與參數透明度區分四種不同適讀性的預測模式(表 3.1):
一、線性迴歸模式
線性迴歸模式代表高輸入透明度和高參數透明度的適讀性模式。該模式的 輸入資料是研究一得到的45 種文本屬性(77 個指標)。每個文本屬性都已在過 去的適讀性文獻中驗證其與文本難度或閱讀歷程的相關,故此模式具備高輸入 透明度。另外,此模式的參數即各文本屬性的迴歸係數。雖然多元迴歸模式
(相較於簡單迴歸)的係數詮釋較為複雜,但仍在統計上有固定的口語描述方 式,故此模式具備高參數透明度。本研究將從研究1.1 所建立的 77 項文本指標 建立一線性迴歸的適讀性預測模式。該模式以Lasso 法同時進行文本屬性選擇 以及參數估計。Lasso 中超參數包含目標函數中的正規化係數。
本研究採用Lasso 法進行迴歸分析的原因是,研究 1.1 的文本屬性分析顯 示,一些文本屬性間存在著高相關。如果本研究以逐步迴歸模式建構適讀性的 預測模式,勢必要處理預測變項(regressors)間的多元共線性
(multicollinearity)問題。多元共線性對迴歸分析可能造成的問題包括:(1)
整體模式的統計顯著,但變項的係數不顯著,這會影響研究者對係數的詮釋,
以及(2)影響逐步迴歸時的變項選擇。事實上,研究一的確可能受到第一問題 的部分影響。因為,研究一的各個分析結果均發現多個變項的係數達到統計顯 著;這亦符合過去的研究發現。研究一未明顯發現係數標準誤對統計檢定的影 響可能來自於迴歸分析的樣本數較大,故共線性問題未嚴重影響到係數檢定。
其次,研究一的確發生變項係數較難詮釋的情形:例如,多個分析發現,句長 的第1 和第 3 四分位數的係數方向相反,但研究 1.1 的屬性常模顯現,該屬性 應該與文本年級呈現正相關。所幸,此問題可能並未直接影響到迴歸分析結果
(亦即,適讀性模式)的應用價值。
過去研究指出,一種降低多元共線性的方法(Dormann, et al. 2013)是直接 移除高相關的變項。然而,本研究計算之文本變項不僅提供給傳統適讀性模式 的建構,亦提供支持向量機取向的適讀性模式建構。後者是以事例權重計算最 後的分類超平面,所以不受變項間的多元共線性的影響。若因為變項間的相關 高(且並非完全相關)而移除某些文本的屬性變項,會使得以支持向量機取向 建構適讀性模式時,減少了輸入特徵的訊息。第二種可能的解決多元共線性問 題的方法是先對輸入特徵進行主因子分析(principal component analysis),並以 主因子當作迴歸分析的預測變項。但是主因子分析後的特徵已非原始的文本屬 性,所以這些因子代表的意義已經不具備透明度,同時當分析結果出來後,變 項係數的詮釋亦將十分困難;故此方法也不符合本研究的目的。第三種解決多 元共線性的方式是使用較耐受共線性的模式,例如Lasso 迴歸。Lasso 迴歸的優 點是可藉由對係數的正規化同時選擇變項和估計變項參數,此方法較符合本研 究的目的。
二、支持向量機
支持向量機是高輸入透明度和低參數透明度的適讀性預測模式。大部分採 用支持向量機建構適讀性模式的研究都使用文本屬性作為輸入特徵,所以該模 式具有較高的輸入透明度。然而,支持向量機所估計的參數為每個訓練模式在 空間中做為支持向量的權重,並應用該權重界定出分類平面。此分類過程具有 抽象的形式概念,與線性迴歸相比,它的參數透明度較低。本研究以線性支持 向量機作為預測模式,並同樣以研究1.1 的 77 項文本指標建立支持向量機的適 讀性預測模式。線性支持向量機的超參數包括目標函數中的懲罰係數(penalty parameter)。
三、主題模式
主題模式是低輸入透明度和高參數透明度的適讀性預測模式。主題模式計 算文章和詞彙的主題分配,並從文本的主題分配預測最可能的適讀年級結果。
在主題模式中,由於每個主題都是詞彙的分配構成,故主題本身可由人工事後 給予標記(如某些主題是關於環境、或關於自然科學等),亦可提高該演算法在 預測上的可訴說性。然而,主題模式的輸入資料,僅是每個文章內的詞彙次數 分配,完全與適讀性文獻無關,故在輸入資料透明度上是較低的。
在採用主題模式取向建構適讀性模式的過程中,會根據訓練文本建立多個 主題,也會建立每篇文本的主題表徵。不僅如此,同時該模式也可計算一篇
(不在訓練文本中的)新文本的主題表徵。本研究將從語料中建立主題模式
(Rehurek & Sojka, 2010),並比較每篇文章的主題表徵,找出所有訓練文本中 與新文本主題最接近的文本表徵當作新文本之適讀年級的預測。亦即,最後預 測結果是以k-近鄰演算法(k nearest neighbor, kNN)作為決定預測結果的方 式。
主題模式的超參數選擇包括(1)訓練資料來源、(2)主題數。主題機率模 式本身的事先機率(priors)參數,亦即文章主題分配和主題詞彙分配的狄氏分 配(Dirichlet distribution)機率參數,則是由語料中自動推估出不對稱的狄氏分 配參數(Wallach, Mimno, & McCallum, 2009)。本研究在交叉驗證過程中,主要 評估不同語料來源和主題數對適讀性預測的表現。本研究的語料來源考慮平衡 語料庫以及小學國語、社會課文等兩種語料類型。在不同語料類型下,本研究 分別比較主題數為50、100、200、300、400 的預測正確率。
四、深度學習
深度學習模式是低輸入透明度和低參數透明度的適讀性預測模式。深度學 習模式的模式參數包含每個神經節點的連結權重,這些參數可理解為神經網絡
用來逼近任意函數的工具(Liang & Srikant, 2017),但在實際應用的問題層面較 難找到可訴說的方法理解參數意義。在模式的輸入特徵方面,深度學習在語言 分類作業常以詞彙作為網路輸入,故深度學習的適讀性模式可不需要任何文本 屬性,其輸入透明度上是較低的。
深度學習在文本分類作業上有相當多選擇,本研究考量到所有的文本資料 僅有950 篇,甚至還需要區分國語與社會課文,故本研究僅使用較單純的神經 網絡。
本研究使用的深度學習模式之輸入資料為一篇篇課文斷詞後的原始詞彙。
所有課文中的詞彙都先透過一個事先定義的詞典(dictionary),該詞典將每個詞 彙對應到一個正整數。故每篇文章的詞彙都可被表達為一組長度為Nd的輸入向 量(Nd為該篇文章的詞數)。這組輸入向量會接著進入「嵌入層」(embedding layer)。嵌入層是包含 V × Ndim 矩陣的查找(lookup)網路層。V 代表輸入向 量的詞數範圍,本研究使用中研院平衡語料庫為詞典來源,共有28,272 詞;
Ndim是嵌入層的維度數,亦即,一個詞彙需用到幾個數字表達。嵌入層會一個 個把輸入向量的正整數當作索引數值,從嵌入矩陣中找出對應該詞彙的向量。
經過嵌入層後,每個詞彙將會由純量轉變為的向量(向量程度為Ndim),亦即 Nd的輸入向量經過嵌入層後,會變成一個二維矩陣(Nd × Ndim)。
接著此二維矩陣需經過進一步編碼(encode)成一個文章向量,模式可藉 助此文章向量做各類型的文本歸類作業(如此研究的適讀性預測作業)。在目前 深度學習的文獻中,此步驟有諸多可能的選擇:平均化層(average pooling)、
循環層(recurrent layer)、長短期記憶層(long short-term memory, LSTM)、摺 積層(convolutional layer)等。然而,循環層當序列長度較長時,很容易會有 梯度消失的問題;此研究所使用的訓練材料皆來自於一篇文章,文章長度在中 高年級可能到達上千詞,使用RNN 在訓練上並不容易。而長短期記憶層與摺 積層所需要訓練的參數數目眾多,此研究的材料僅950 篇,且仍須區份國語科
與社會科文本,訓練材料尚不足以滿足參數訓練所需。故本研究使用平均化 層,將Nd × Ndim的矩陣,沿著矩陣的行平均起來成一組向量(長度為Ndim), 當作此模式接續預測的文本向量。
當取得文本向量,本研究直接將此文本向量藉由前餽層(feed-forward layer)連結至輸出層(output layer)。此前餽層是完全連接(fully connected),
並以sigmoid 函數作為激發函數(activation function)。文本向量中的每個元 素,都可直接影響每個輸出節點。輸出層共有6 個節點,分別代表 1 至 6 年 級。輸出節點的值將經過softmax 轉換,讓適讀性的預測符合機率分配的特 質。最後再將預測結果和實際文本在課文中的年級做比較。由於每個文本僅屬 於一個類別,而模式的目的是使正確的類別有最大的機率,故本研究選用的目 標函數為負對數似然函數(negative log-likielihood function)。
整體而言,本研究採用的深度學習模式架構為詞彙輸入連結至詞彙嵌入 層,並使用平均化層降低維度(average pooling),並連結至輸出層形成預測。
整體而言,本研究採用的深度學習模式架構為詞彙輸入連結至詞彙嵌入 層,並使用平均化層降低維度(average pooling),並連結至輸出層形成預測。