• 沒有找到結果。

第三章 研究方法

第二節 兒童文本分析系統

本小節分為三部分,第一部分就研究指標的建置流程做說明,第二部分說明兒 童文本分析指標的意義及計算方式,第三部分介紹兒童文本分析系統。

壹、指標建置流程

本研究詞頻、詞彙指標建置流程,如圖 3-2-1 所示。首先為文本的蒐集,所使用 相關文獻閱讀

建置詞頻詞彙指標

評估詞頻詞彙指標

評估指標成效 資料樣本蒐集

資料分析與整理

撰寫研究報告 提出結果與建議

的文本來源為廖晨惠(2010)之國科會「以 LSA 為基礎之電腦化閱讀認知測驗及 AutoTutor 建置」計畫(編號:NSC 100-2420-H-142-001-MY3)所建置的國小兒童語 料庫,文章收錄自經授權之國小一至六年級教科書與兒童相關讀物共 945 篇。

圖3-2-1 詞頻詞彙指標建置流程

本研究採中央研究院數位典藏國家型科技計畫建置之中文斷詞系統,完成初步 斷詞,但檢視中研院初步斷詞後的語句,發現部分詞類標記與現代漢語不甚相符,

例如「燦爛的星空」一句,中研院斷詞的結果為快樂-的-成長(動詞-介詞-名 詞),但實際用法應為快樂的-成長(形容詞-名詞),故就中研院的斷詞規則篩選 出需再做第二階段斷詞的句型,將其修改後的詞類標記與範例說明整理如表3-2-1、

表3-2-2,做為第二階段斷詞之依據,以完成本研究兒童語料庫文本之斷詞。

文本蒐集

詞頻詞彙數指標計算 第二階段斷詞

評估指標成效 中研院第一階段斷詞

表3-2-1 修改中研院精簡詞性後斷詞標記規則列表

(2010)之國科會「以 LSA 為基礎之電腦化閱讀認知測驗及 AutoTutor 建置」計畫(編 號:NSC 100-2420-H-142-001-MY3)中所建置的兩萬多個詞彙,詞頻指標的部分可分 為「所有詞詞頻」、「實詞詞頻」及「每句詞頻最小值」三個指標。

(一) 所有詞詞頻:指一篇文章中所有的詞彙在『兒童語料庫』中出現的次數,

並取其對數。

所有詞詞頻= log 呈線性關係(Graesser et al., 2004),故本研究所有詞詞頻、實詞詞頻、每句詞頻最小 值指標之計算方式亦採取對數的方式。

參、 兒童文本分析系統

國立臺中教育大學教育測驗統計研究所發展的兒童文本分析系統,目前的分析 指標包含詞頻與詞彙訊息部分、文章的連貫性、詞彙習得年齡、詞彙多樣性、連接 詞等五類,操作者介面如圖 3-2-2 所示,針對使用者欲分析的文章,經中研院斷詞系 統做第一階段斷詞處理,而後進行第二階段斷詞修改後,勾選欲分析的指標,即可 開始文本內容自動化分析,其操作步驟說明如下:

步驟一:輸入欲分析文章基本資料 1. 文章標題

2. 資料來源 3. 文章內容

步驟二:選擇欲分析的衡量指標 步驟三:開始文章分析

圖3-2-2 兒童文本分析系統介面

以國語科「幸福的味道」一文為例,經兒童文本分析系統處理後,結果呈現 如圖 3-2-3 所示。針對「幸福的味道」一文所選取的詞頻詞彙指標做分析,可得 到所有詞出現的頻率為 8.539、實詞出現的頻率 7.578、每句詞頻最小值為 4.228 及平均詞彙數為 7.409。

圖3-2-3 文本自動化分析結果介面

相關文件