中文文本分析之重要指標

第二章文獻探討

第二節中文文本分析之重要指標

105 Flesch-Kincaid Grade Level

106 Coh-Metrix L2 Readability 資料來源：McNamara, Graesser, McCarthy & Cai (2014)

第二節中文文本分析之重要指標

目前本研究團隊已根據 Coh-Metrix 3.0 系統，並參照中文文本特性陸續發展了 65 項中文文本分析指標，其中包含詞類（陳建宏，2013）、詞頻（蔡筱倩，2013）、

語詞重複（黃勇媜，2013）、關聯詞（陳文蘭，2013）、潛在語意分析（蔡亞韋，

2013）、詞彙多樣性（葉靜如，2014）、詞彙習得年齡（李湘瑩、葉靜如、廖晨惠、

郭伯臣、楊裕貿，2013）、句子結構（倪雅真，2014）、字詞複雜度（張琇涵、倪雅真、郭伯臣、廖晨惠、白鎧誌，2014）等大類。茲將上述研究結果簡單彙整如下：

詞類可以提供閱讀和對話當中判斷與理解的重要線索，其中實詞可以預測文章下文並增進語義上的理解，虛詞則對心理層面的理解有重要的幫助（Pennebaker, 2011）。故陳建宏（2013）發展了名詞、動詞、形容詞、副詞等四大實詞指標，

並指出詞類指標與閱讀理解層次中較低的直接提取、直接推論，呈中高度相關。

LaBerge 與 Samuels（1974）提出的自動化理論（Automaticity Theory）及 Perfetti

（1985）的字彙效率論（Verbal Efficiency Theory 皆指出當一個詞出現的頻率愈高，

就表示這個詞彙較常出現，讀者也較為熟悉。鄭錦全（2005）亦證實一篇文章中，

詞語出現的頻率越高，則文章越容易閱讀。是故蔡筱倩（2013）發展了所有詞詞頻、實詞詞頻、詞頻最小值及平均詞彙數等七項詞頻詞彙相關指標，其研究顯示此七個指標預測文本適讀年級可達 27.4%的解釋量。

當兩個句子中，有一個共同的參數（如：名詞，動詞..等），則此兩個句子就具有共同參照凝聚力。共同參照指標為文章中語意是否連貫的一個重要指標

（Halliday & Hasan, 1976; McNamara & Kintsch, 1996），但在中文方面卻鮮少有文獻提及。故黃勇媜（2013）發展了動詞相鄰重複詞指標、名詞相鄰重複詞指標、

實詞相鄰重複詞指標、名詞整體重複詞指標、動詞整體重複詞指標、實詞整體重複詞指標等六項重複語詞相關指標，其研究指出此六個指標預測文本適讀年級可達 11.9%的解釋量。

張藍尹（2009）指出關聯詞具有連結語句串聯篇章、促進訊息的整合，並提供閱讀的策略等功能。故陳文蘭（2013）依據中文複句的分類發展了遞進、選擇、

承接、轉折、假設、因果、條件、目的和整體等十項關聯詞指標，並發現關聯詞指標能預測文本閱讀年級，使用逐步迴歸分析，目的、轉折、因果、條件以及並列關聯詞五個指標即可達 20.9％解釋量。

潛在語意分析（Latent semantic analysis, LSA）是一種檢索詞彙或句子間相關程度的數學及統計技術，可自動化從文章的句子中去萃取及推論字詞間的關係

（Landauer, Foltz, & Laham, 1998)。當 LSA 相似程度數值越低，即表示該文本對閱讀者在閱讀理解方面難度較高（Graesser, McNamara, & Kulikowich, 2011）。因此蔡亞韋（2013）發展了相鄰句潛在語意關係指標（Local LSA）、整篇文章潛在語意關係指標（Global LSA）、句子間新舊訊息潛在語意指標（LSA Given-New）

與句間重複動詞潛在語意關係指標（LSA verb overlap）等四項潛在語意分析相關指標，其研究顯示此四個指標預測文本適讀年級解釋量可達 60.5%。

Zareva, Schwanenflugel 與 Nikolova（2005）指出詞彙多樣性為預測學習者啟蒙語言的能力和描述說話者或寫作者在文本中詞彙部署範圍和種類的重要性指標。葉靜如（2014）發展了所有詞詞彙多樣性（TTRA）、實詞詞彙多樣性（TTRC）

及測量文本詞彙多樣性（MTLD）等三項詞彙多樣性（lexical diversity）相關指標，

使用逐步迴歸分析，TTRA 及 MTLD 兩個指標的整體解釋量可達 28.9％。

Carroll 等人（1973）認為詞彙習得年龄是影響詞彙了解和產生速度的重要因素。因此李湘瑩等人（2013）根據 Auer 與 Bernstein（2008）的方式採用年齡暨就讀學校的階段作為分段依據，由詞彙最早出現的年段視為該詞彙最早習得年齡。

並請專家針對兒童語料庫中的詞彙予以評分發展了詞彙習得年齡指標。

句子在語言結構中具有上啟段落、篇章，下承語詞、詞素的聯絡功能。倪雅真（2014）遂發展了相鄰句及全文句子詞彙與詞性的最小編輯距離及句子結構的相似度等六項句子結構相關指標。其研究顯示此六項指標預測文本適讀年級解釋量可達 22.9%。

楊孝濚（1971）曾以筆劃數為指標，發現筆劃數可以預測文本的難度，筆劃數越多，則閱讀的難度越高。陳如玲與蘇宜芬（2010）在小學學童的實驗中發現以筆劃數為分析單位時，會有字元複雜度效果的結果。因此，張琇涵等人（2014）

發展了詞彙密度、筆畫數等詞彙訊息相關指標。

本研究團隊目前已根據 Coh-Metrix3.0 系統所發展之 11 類 106 項指標，並參照中文文本特性挑選及修正為對中文文本特徵具實質意義的指標進行指標建置的工作，自 2012 起已陸續發展了 65 項中文文本分析指標。但因過多的細項指標反而在文本的分析上不易使用也很難做統整的解釋，故據此萃取影響中文文本特性的主要因素即成為相當重要的工作。本研究主要目的為依因素分析萃取中文兒童文本之重要特徵，並利用語料庫的分析探討所萃取之文本特徵是否足以預測文本適讀年級及探討其與閱讀理解間的關係。

在文檔中中文兒童文本特徵分析 (頁 21-24)

第二章 文獻探討

第二節 中文文本分析之重要指標

第二節 中文文本分析之重要指標

第二章文獻探討

第二節中文文本分析之重要指標

第二節中文文本分析之重要指標