文本屬性的抽取與分析

第二章研究一、文本屬性分析

第一節文本屬性的抽取與分析

本研究使用的國語課本包括。（一）100 學年翰林版一到六年級的上學期課本、98 學年翰林版一到六年級的下學期課本、（二）100 學年康軒版一到六年級的上學期課本、98 學年康軒版一到六年級的下學期課本（三）100 學年南一版一到六年級的上學期課本、99 學年南一版一到六年級的下學期課本。

本研究使用的社會課本包括：（一）102 學年翰林版之一到二年級之生活課本，以及三到六年級之社會課本、（二）102 學年康軒版一到二年級上學期的生活課本，及三到六年級的上學期的社會課本、101 學年康軒版一到二年級下學期的生活課本，及三到六年級下學期的社會課本、（三）102 學年南一版一到二年級的上學期的生活課本、102 學年南一版三到六年級的社會課本，99 學年南一版一年級下學期的生活課本，以及101 學年南一版二年級的生活課本，以及 101 學年三到六年級下學期的社會課本。

第一節文本屬性的抽取與分析

研究一目的是按照過去傳統公式期和認知理論期的適讀性研究文獻（Klare, 1976; Graesser et al., 2004），找出與文本適讀性相關的文本屬性，並建立可自動

5 本研究僅分析白話文的國語課文，故如文言文、新詩、劇本等文體皆不納入分析。

6 生活科課本與社會科課本在九年一貫課程綱要中分別按照生活課程與社會學習課程編纂，嚴格而言並非屬同一課程。本研究為使社會領域文本與國語領域文本有相同類別數目之適

抽取屬性的方式。按過去研究，本研究共選出45 個過去在適讀性研究中相關的文本屬性，共77 個指標（見附表 2.1）。這些指標亦可按其所分析的文本屬性分成六個類別：表層、詞彙、句法、語義、連接詞和一致性。

壹、研究方法

從文本抽取出屬性的過程分成三個階段：（一）文本前處理；（二）查找各項頻率常模、詞表或詞彙資料；（三）計算屬性數值。

文本前處理階段目的是將原始的文本變成計算屬性時所需用到的資料結構。此資料結構包含詞彙訊息以及句法樹結構。詞彙訊息包括文本經斷詞後所產生的各個詞彙，以及每個詞彙的詞類訊息（part of speech）。句法樹結構則是將文本中的每個句子（以句點、問號、驚嘆號分隔）轉變為代表其句法的樹狀結構。上述轉換過程牽涉到斷詞、詞類標記和句法剖析三項在自然語言處理中常用的作業。本研究選擇使用Stanford CoreNLP（Manning et al., 2014）來完成上述作業。

Stanford CoreNLP 是 Stanford 大學的計算語言處理研究群所開發的程式，

支援中文及其他多種語言。該程式可在該研究群的網頁上免費自由取得，且亦開放原始碼供各界參閱。該程式的斷詞模型是以隨機條件機率場判斷詞彙邊界，其斷詞正確率（F1-score）為.94（Chang, Galley & Manning, 2008）。詞類標記的模式則為循環依存網路（cyclic dependency network），詞類標記之正確率

（F1-score）為.94（Toutanova et al., 2003）。在句法剖析的作業上，本研究同時使用該程式的成分剖析（constituency parsing）和依存剖析（dependency

parsing）的結果。成分句法剖析是根據機率式脈絡獨立語法（PCFG）與 shift-reduce 剖析器找出句法結構，該模式的正確率（F1-score）為.86（Zhu, Zhang, Chen, Zhang & Zhu, 2013）。依存語法的句法剖析器是訓練神經網路模式預測每

個詞彙的依存關係，其正確率（labeled attachment score, LAS）為.82（Chen &

Manning, 2014）。

當文本經過前處理步驟後，文本中的詞彙僅包含詞類標記，本研究需進一步查找其他在計算屬性時用到的詞彙訊息。本研究使用到的詞彙訊息包括：

（1）頻率訊息：由中研院平衡語料庫所計算出的字彙、詞彙的使用次數常模；

（2）筆畫數訊息：從教育部國語辭典所取得的字筆畫訊息；（3）分類詞表：包括動詞類別和連接詞類別的詞表，例如「或者」屬於選擇連接詞、「然後」屬於承接連接詞等。這些詞彙類別訊息來自於程祥微、田小琳（2015）的《現代漢語》；以及（4）詞彙語意數訊息：由中文詞彙網路（黃居仁等人，2008）整理 7,960 個詞彙的語意數。在此步驟中，本研究透過程式自動查找上述詞彙訊息，

供後續階段計算文本屬性使用。

分析的第三階段是計算文本屬性的確切數值。一篇文章經過前述處理後，

即可按照詞彙訊息和句法樹結構計算本研究需使用的文本指標。因為指標的數目較多，為了討論上的方便，下文將文本屬性分為五類，以利說明指標的計算方法；這五類屬性分別為：表層類別、詞彙類別、句法類別、語義類別、一致性類別。

一、表層類別

表層類別的屬性指的是字筆畫數、詞長、子句長與句長四項僅需從文本表面即可計算數值的屬性。如字的筆畫數僅需要從字本身就可知道其筆畫，子句長只需以文中的逗點、冒號等其他分隔符號即可計算。雖然中文詞並非從文本表層可得知的訊息（中文在書寫時無詞彙邊界訊息），但為符合過去適讀性文獻的慣例，仍將詞長列為表層屬性。

這四項屬性分別屬於字、詞、子句、句長四個層次。在一篇文本中，可能包含多個字詞、子句或句子，故這些屬性在文本中將形成一個由多個數值組成的分配。本研究為盡可能保留這些屬性分配的訊息，故分別以三個統計指標描

述這個分配的第1 四分位數、第 2 四分位數（中數），及第 3 四分位數。也就是說，從這四個屬性，本研究可以獲得12 個與文本難度可能有關的指標。

二、詞彙類別

本研究整理出21 個與詞彙有關的屬性：包括 1 個詞彙豐富度屬性（詞類詞例比）、2 個頻率屬性（字詞頻）、7 個詞彙比例屬性（名詞、形容詞等出現次數）、11 個連接詞類別屬性。詞彙豐富度屬性屬於文本層次的訊息，它計算的是文本中出現的詞例數目（word token）和不同詞類（word type）次數的比例。

此指標的數值愈高，代表文本中用了愈多不同的詞。

文本中的字詞頻訊息來自於中研院平衡語料庫的字詞頻常模。在計算頻率屬性時，每個字例和詞例都會對應到一組使用次數。所以集合所有的字詞使用次數後，一篇文本中字和詞例的使用次數會分別形成一個分配。在文本中，字詞頻分布的使用頻率常常相當極端（Zipf, 1949）。此極端的分配型態常來自於文本中最常出現的詞彙通常都有特定句法角色。例如，英文中的功能詞（the、

in、on 等）會在文本中多次的出現，所以這些詞在常模中的頻率也往往是高的；在中文中，文本中也有一些常用的詞彙（如，的、是、有、不、在等詞彙），這些詞彙在字詞頻常模的頻率也都相當高。然而，文本閱讀上的難度往往來自於其他使用頻率較低的字或詞。例如，Dale 與 Chall（1948）的適讀性模式中，就使用「難詞」的比率來預測文本的適讀性。這些在文本中各自扮演不同角色的詞彙，可能都蘊含與適讀性相關的訊息。本研究為捕捉文本中頻率分配的不同訊息，故使用兩種方法來描述字詞頻分布。一是以5 個統計指標（第 1、第 5、第 25、第 50、第 75 百分位數）描述分配形狀。二則是將字詞按照使用次數的（常用）排序分成若干事先指定的範圍，並計算文本中有多少比例的字詞落在該範圍內。在字的層次中，本研究區分出4 個範圍，分別是中研院平衡語料庫字頻常模排序前799 的常用字、800（含）以上到 1500 以下、1500

（含）到3000，以及排序在 3000（含）以上的字彙。在詞的層次，則是根據中

研院平衡語料庫詞頻常模中排序在前999 的常用詞，1000（含）到 2000、2000

（含）到5 萬、以及排序在 5 萬以後的詞彙。將字（詞）以其常用排序的位置劃分區段的優點是，字（詞）在各區段的分配比率較為平均，可改善頻率資料極端右偏的屬性。

詞類屬性包括分析各詞類在文本中出現的比例。此研究所計算的詞類比例共有名詞、動詞、形容詞、代名詞、連接詞、內容詞出現的比例。其中，動詞又區分為能願動詞（如能、要、會）與使令動詞（使、叫、讓）等二類。連接詞可提供句子之間的邏輯關係和時間的先後順序，對閱讀理解有很重要的功能。例如Graesser 等人（2004）認為這些詞彙可以增加文本的一致性（text cohesion）。故本研究不但分析文本中連接詞的使用，更將其細分為並列、承接、遞進、選擇、轉折、因果、條件、假設、目的、解證10 類（程祥徽、田小琳，2015），以便瞭解不同類別的連接詞與文本適讀性之間的關係。

一個詞彙的語義複雜度往往會影響讀者對這個詞彙辨識，以及含有這個詞彙之句子的處理（Rodd, Gaskell, & Marslen-Wilson, 2002; Foraker & Murphy, 2012）。在本研究中，一個詞彙之意義的複雜度根據的是該詞彙在中文詞彙網絡中的語意數目（黃居仁等人，2008）。在本研究中，一篇文本中的每個詞例都會對應到一個詞彙的語義數目，若一個詞彙未收錄於中文詞彙網絡中，本研究中將視之為單義詞。一篇文本中所用的所有詞例的語意數會形成一個分配，此分配的第1、2、3 四分位數等三個統計指標將用以描述一篇文章所用詞例的語義複雜度分配。

三、句法類別

句子的句法複雜度會影響讀者對句子處理的時間，甚或理解的程度

（Pearson, 2013），所以和句子有關的句法屬性也可能會影響文本的適讀性。本研究將透過Stanford CoreNLP 對文本的句法剖析結果，將句子表徵為句法樹的形式，並參考Coh-metrix 以及中文語法的特性，收集兩類與句法相關的屬性：

（1）句法的結構；（2）語式的頻率。

結構屬性。從一篇文本中，本研究不但可以計算類似整體文本長度（詞數）的表層屬性，還可以根據文本所含之句子的句法樹，計算出6 項與片語

（名詞片語、動詞片語、介係詞片語）及句子類型（把字句、被字句、比字

在文檔中診斷式的適讀性評估系統：以小學文本探討四種模式的比較研究 (頁 71-84)

第二章 研究一、文本屬性分析

第一節 文本屬性的抽取與分析

第二章研究一、文本屬性分析

第一節文本屬性的抽取與分析