• 沒有找到結果。

中文文本分析指標

在文檔中 中文兒童文本特徵分析 (頁 32-38)

第三章 研究方法

第二節 中文文本分析指標

目前本研究團隊已根據 Coh-Metrix3.0 系統,並參照中文文本特性陸續發展 了 65 項中文文本分析指標,詳如表 3-2-1 所示。其中包含 11 個描述性相關指標

(蔡筱倩,2013、張琇涵、倪雅真、郭伯臣、廖晨惠、白鎧誌,2014)、6 個參照 凝聚力指標(黃勇媜,2013)、4 個潛在語意分析指標(蔡亞韋,2013)、3 個詞 彙多樣性(葉靜如,2014)、10 個關聯詞指標(陳文蘭,2013)、6 個句法簡明度 相關指標(倪雅真,2014)及 25 個詞彙訊息相關指標(李湘瑩、葉靜如、廖晨

研究目的

文獻探討

統整中文文本分析之重要指標

文本特徵與文本適 讀年齡關係探討

萃取中文文本重要指標之特徵

文本特徵與閱讀 理解關係探討

撰寫研究報告提出結果與建議 國小教科書文本

特徵趨勢分析

23

惠、郭伯臣、楊裕貿,2013;陳建宏,2013;蔡筱倩,2013、)。茲將上述研究 之指標定義彙整如下:

一、描述性

(1)字數:文本之總字數。

(2)詞彙數:文本支總詞彙數。本研究之所有詞彙指標相關計算皆使用中研院 斷詞系統(中央研究院,2004),完成初步斷詞,再根據黃勇媜(2013)之 定義,修改部分詞類標記不合的部分,進行二次斷詞。

(3)平均詞彙數:指將句子中所有的詞彙相加,除以每篇文章中所有句子數。(蔡 筱倩,2013)

(4)平均筆畫數比:文本中所有字彙的總筆畫數除以總字數。本研究筆畫數相 關指標之計算皆依教育部 1979 年所公布之常用國字標準字體表所收錄之 4808 字為依據,當文本出現常用國字標準字體表所未收錄之國字時,則以 教育部國語辭典簡編本收錄之國字筆畫為計算之依據。(張琇涵、倪雅真、

郭伯臣、廖晨惠、白鎧誌,2014)

(5~7)高筆畫數比、中筆畫數比、低筆畫數比:本研究參考胡夢珂(2010)的 筆畫數分類方式,將筆畫數之計算以筆畫數 10、20 為切割點,區分為低筆 畫字數、中筆畫字數及高筆字畫數三類,並將其除以該文本總字數。(張琇 涵、倪雅真、郭伯臣、廖晨惠、白鎧誌,2014)

(8~11)一字詞比、二字詞比、三字詞比、四字以上詞比:依照二次斷詞後的詞 彙,可將詞長指標分為一字詞、二字詞、三字詞及四字以上詞四項,將其 除以總詞彙數即為所佔比例。

二、參照凝聚力

(12~14)相鄰名詞、動詞、實詞重複指標:當句間具詞彙共同參數,則將其值 計為 1,並計算整篇文本中相鄰句共同參數之平均(黃勇媜,2013)。

(15~17)全文名詞、動詞、實詞重複指標:當句間具詞彙共同參數,則將其值

24

計為 1,並計算整篇文本中所有句子與其後 10 個句子之共同參數之平均(黃 勇媜,2013)。

三、潛在語意分析

(18)相鄰平均潛在語意分析指標:計算句間詞彙在語意空間之語意關係餘弦值,

並據此計算整篇文本中相鄰句之平均潛在語意相似度(蔡亞韋,2013)。

(19)全文句間平均潛在語意分析指標:計算句間詞彙在語意空間之語意關係餘 弦值,並據此計算整篇文本中所有句子與其後 10 個句子之平均潛在語意相 似度(蔡亞韋,2013)。

(20)潛在語意動詞重複指標:計算相鄰句間動詞的潛在語意關聯平均值(蔡亞 韋,2013)。

(21)句間平均新舊訊息潛在語意指標:計算文本中每個句子(新訊息+舊訊息)

相對於該句子前所有句子(舊訊息)之潛在語意相似程度之比值(蔡亞韋,

2013)。 四、詞彙多樣性

(22~23)TTR:文本中不同單詞的總數(types)和文本中所有字(tokens)的總 數之比(Templin, 1957)。

(24)MTLD:為改良 TTR 所發展之指標,公式詳見葉靜如(2014)。

五、關聯詞

(25~34)關聯詞:依照中文語法之複句結構定義 9 類細項關聯詞指標及其加總 之整體關聯詞指標,並計算其每千字之出現率,詳細關聯詞之界定見陳文 蘭(2013)。

六、句法簡明度

(35~38)最小編輯距離:指兩個字串之間由一個轉成另一個所需的最少編輯操 作次數。詳細計算公式見倪雅真(2014)。

(39~40)句子結構相似度:經中研院剖析系統,剖析後得到句子的結構代碼,

25

進行比對兩句結構代碼的相似度。詳細計算公式見倪雅真(2014)。

七、詞彙訊息

(41~57)詞類出現率:依據 Coh-Metrix(Graesser, McNamara, Louwerse, & Cai,, 2004)詞類指標的計分方式,計算文本每千個詞中該詞類之出現次數。

26

27

43 形容詞出現率 44 副詞出現率 45 代名詞出現率

46 第一人稱單數代詞出現率 47 第一人稱複數代詞出現率 48 第二人稱單數代詞出現率 49 第二人稱複數代詞出現率 50 第三人稱單數代詞出現率 51 第三人稱複數代詞出現率 52 第一人稱代詞出現率 53 第二人稱代詞出現率 54 第三人稱代詞出現率 55 人稱代詞出現率 56 疑問代詞出現率 57 指示代詞出現率 58 每句詞頻最小值 59 每句詞頻最小值對數 60 所有詞彙詞頻

61 所有詞彙詞頻對數 62 實詞詞頻

63 實詞詞頻對數 64 詞彙習得年齡 65 具體度

28

在文檔中 中文兒童文本特徵分析 (頁 32-38)