兒童文本分析系統

第三章研究方法

第二節兒童文本分析系統

本小節分為三部分，第一部分就研究指標的建置流程做說明，第二部分說明兒童文本分析指標的意義及計算方式，第三部分介紹兒童文本分析系統。

壹、指標建置流程

本研究詞頻、詞彙指標建置流程，如圖 3-2-1 所示。首先為文本的蒐集，所使用相關文獻閱讀

建置詞頻詞彙指標

評估詞頻詞彙指標

評估指標成效資料樣本蒐集

資料分析與整理

撰寫研究報告提出結果與建議

的文本來源為廖晨惠（2010）之國科會｢以 LSA 為基礎之電腦化閱讀認知測驗及 AutoTutor 建置｣計畫（編號：NSC 100-2420-H-142-001-MY3）所建置的國小兒童語料庫，文章收錄自經授權之國小一至六年級教科書與兒童相關讀物共 945 篇。

圖3-2-1 詞頻詞彙指標建置流程

本研究採中央研究院數位典藏國家型科技計畫建置之中文斷詞系統，完成初步斷詞，但檢視中研院初步斷詞後的語句，發現部分詞類標記與現代漢語不甚相符，

例如「燦爛的星空」一句，中研院斷詞的結果為快樂－的－成長（動詞－介詞－名詞），但實際用法應為快樂的－成長（形容詞－名詞），故就中研院的斷詞規則篩選出需再做第二階段斷詞的句型，將其修改後的詞類標記與範例說明整理如表3-2-1、

表3-2-2，做為第二階段斷詞之依據，以完成本研究兒童語料庫文本之斷詞。

文本蒐集

詞頻詞彙數指標計算第二階段斷詞

評估指標成效中研院第一階段斷詞

表3-2-1 修改中研院精簡詞性後斷詞標記規則列表

（2010）之國科會｢以 LSA 為基礎之電腦化閱讀認知測驗及 AutoTutor 建置｣計畫（編號：NSC 100-2420-H-142-001-MY3)中所建置的兩萬多個詞彙，詞頻指標的部分可分為「所有詞詞頻」、「實詞詞頻」及「每句詞頻最小值」三個指標。

(一) 所有詞詞頻：指一篇文章中所有的詞彙在『兒童語料庫』中出現的次數，

並取其對數。

所有詞詞頻= log 呈線性關係(Graesser et al., 2004)，故本研究所有詞詞頻、實詞詞頻、每句詞頻最小值指標之計算方式亦採取對數的方式。

參、兒童文本分析系統

國立臺中教育大學教育測驗統計研究所發展的兒童文本分析系統，目前的分析指標包含詞頻與詞彙訊息部分、文章的連貫性、詞彙習得年齡、詞彙多樣性、連接詞等五類，操作者介面如圖 3-2-2 所示，針對使用者欲分析的文章，經中研院斷詞系統做第一階段斷詞處理，而後進行第二階段斷詞修改後，勾選欲分析的指標，即可開始文本內容自動化分析，其操作步驟說明如下：

步驟一：輸入欲分析文章基本資料 1. 文章標題

2. 資料來源 3. 文章內容

步驟二：選擇欲分析的衡量指標步驟三：開始文章分析

圖3-2-2 兒童文本分析系統介面

以國語科「幸福的味道」一文為例，經兒童文本分析系統處理後，結果呈現如圖 3-2-3 所示。針對「幸福的味道」一文所選取的詞頻詞彙指標做分析，可得到所有詞出現的頻率為 8.539、實詞出現的頻率 7.578、每句詞頻最小值為 4.228 及平均詞彙數為 7.409。

圖3-2-3 文本自動化分析結果介面

在文檔中兒童文本詞頻詞彙指標分析系統建置與應用 (頁 30-36)

第三章 研究方法

第二節 兒童文本分析系統

壹、指標建置流程

參、 兒童文本分析系統

第三章研究方法

第二節兒童文本分析系統

參、兒童文本分析系統