• 沒有找到結果。

第三章 研究設計與實施

第五節 資料分析

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

文檔資料後,將進行第一次的詞頻統計測試,並依其結果扣除如「的」、「依 據」等較為無法做出主題歸納之詞彙,運用 R 軟體的套件建立停字詞去除,並 考量原有辭庫中是否不含有「公辦民營」、「實驗教育三法」等專有名詞,加 以使用擴增辭庫套件新增為可辨識之詞彙,以利後續資料統計時,資料的完整 性與準確性。

第五節 資料分析

資料分析階段將依據前面資料處理的結果進行統計分析與套論,首先按照 JiebaR 斷詞結果統計 7 個文本中的詞頻,並運用 TF-IDF 演算法計算出各詞彙在 文本中的權重後製作矩陣圖示。接著運用清理過後的數據資料進行主題模型中 的潛在狄利克雷分配,計算各文本中的主題分布並比較各年間的文本關係與其 變化,並進行複雜度計算與分析以確定所選取的主題數量。

壹、 TF-IDF 矩陣

TF-IDF 涵蓋兩個概念,分別為字詞頻率(term frequency, TF),以及逆文 件頻率(inverse document frequency, IDF),其定義公式分別如下:

𝑡𝑓

𝑖,𝑗

= 𝑛

𝑖,𝑗

𝑘𝑖=1

𝑛

𝑖⋅𝑗

公式定義一份文件中總共有 k 個詞彙,且將每個詞彙編號為 i(i=

1,2,…,k),編號為電腦計算時所自動給定,共有 j 份文件,n 代表某個詞彙出 現的個數,因此 tfi,j意即在第 j 份文件中,編號i之詞彙的字詞頻率,其中分母 將第j份文件中總共k個詞彙的個數相加,分子為第j份文件中,第i個詞彙 的個數。舉例說明:假設在文件 1 中具有共有 100 個詞彙,即 j=1,k=100,

而欲知道文件中編號為 1 號之詞彙「教育」在整份文件之頻率權重,即 i=1,

且已知「教育」一詞在文件 j 中出現 20 次,則 tf1,120

100,即為 0.2。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

以視覺化圖示呈現詞頻統計結果,方便了解字詞間的頻率關係與權重比差異,

使統計資料能夠更直觀,作為統計結果解釋之輔助工具之一。

參、 主題模型建立

一、潛在狄利克雷分配

主題模型的提出人 Blei 曾經在文中提及主題模型適用於發現大量的非結構 化文本中信息的一種演算法,可根據發現的主題組織文本集合(Blei, 2012)。

主題模型(topic model)主要包含潛在語意分析、潛在狄利克雷分配以及情緒 分析。而潛在狄利克雷分配用於在文件中萃取出抽象的主題,其假設每篇文件 都是由幾個主題所組成,而每個主題都有涵蓋幾個重要的關鍵詞彙。是一種計 算內容分析技術可以用來探索文本中的隱藏主題與識別和描述文本集中潛在的 主題結構(Blei, 2012;Maier et al., 2018)。潛在狄利克雷分配之機率模型如圖 3-6。其中 α 代表主題-文件分布的狄利克雷參數;β 為主題-文字分布間的同一 角色;θ 為特定文件的主題分布;t 為文本中每個字的特定主題;γ 為特定單字 的主題分布;具有 m 個文件的語料庫;與 n 個單字的詞彙(每一文件有 ni個單 字);具有 k 個不同的主題;w 為所有文本中之字詞。其中,β 為先驗參數

(prior parameters),α 和 β 影響單詞主題和主題文檔分佈的形狀和特殊性,而 β 將用於繪製後續特年份主題模型建置中,各詞彙於該主題中分布之計算。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖 3-6 潛在狄利克雷分配之機率模型

資料來源:王曉華(2018)。Spark Mllib 機器學習實戰技巧大公開(頁 261)。臺北市:佳魁資訊。

二、複雜度分析

複雜度(perplexity)為學者 Blei 在提出潛在狄利克雷分配模型時,同時提 出用以測試主題適配數量的方法,其目的在計算文本主題模型的建置於不同主 題數量的情況下,其複雜度的大小與趨勢走向,提供分析人員在決定主題數量 時,作為決策指標之一。Maskeri、Sarkar 與 Heafield(2008)提及在主題建置 的過程中需嘗試不同數量的主題,並重複主題提取的動作以獲得適合使用的主 題。而在Griffiths 和 Steyvers(2004)以及 Blei、Andrew 和 Jordan(2003)對 於主題建置測試後的研究發現,當複雜度越低時,其所對應之主題數為該模型 最適配之主題數量。

α

β γ

θ

k

t

n

m w

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

0.00% 7.59%

13.92%

2014年 2015年 2016年 2017年 2018年 2019年 2020年

6.35% 0.00%

2014年 2015年 2016年

2017年 2018年 2019年

2020年

2014年 2015年 2016年 2017年 2018年 2019年 2020年 篇

2014 2015 2016 2017 2018 2019 2020

文章總數 比率

2014年 2015年 2016年 2017年 2018年 2019年 2020年

原文總字數 數據清理後之總字數

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

表 4-3

各年份詞頻比較

2014 年 2015 年 2016 年 2017 年 2018 年 2019 年 2020 年 15 民族 道德 理念 家長 部落 大學 實驗學校 16 小學 研究 辦理 特色 專業 團體 自己 17 創新 發展 創新 問題 實施 特殊 生活 18 多元 老師 規定 教育學 家長 耶拿 社區 19 探討 自己 方式 研究 孩子 問題 政府 20 系統 世界 孩子 理念 混齡 理念 訪談 註:本表僅列出排序前20 之詞彙,詳見附錄

依據各年文本頻率排序前100 之詞彙比較,將其大致分類為相關參與者、

課程與教學、法規與制度、實驗教育元素、各年特色與議題五大類進行各年間 之對照分析。

(一) 相關參與者

實驗教育相關參與人員分為學生與孩子、教師與老師、家長、政府機關;

校長,其中除2014 年提及「教師」的頻率高於「學生」外,其餘年份中皆以學 生與孩子的頻率最高;提及「家長」的排序大部分穩定在排序9-18 之間,惟 2019 年之排序為 30,「校長」一詞則是在排序 29-85 之間不等,且並非每年皆 有在排序100 內。

(二) 課程與教學

在教師教學與學生學習方面,僅2014 年與 2018 年「教學」一詞的頻率高 於「學習」的頻率,其餘年份皆為「學習」一詞之頻率較高,且為2019 年所有 詞彙排序中之第一。「課程」一詞在各年份中之排序約3-12 不等,以 2014 年排 序第3 為最高,而關於「教材」一詞僅 2020 年在排序前 100 內。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖 4-5 2014 年詞頻分析長條圖

圖 4-6 2014 年詞頻分析文字雲

0

20 40 60 80 100 120 140

教育 研究 課程 學校 教師 教學 學生 學習 發展 家長 分析 進行 實施 華德福 民族 小學 創新 多元 探討 系統

率 (

次 )

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

三、2015 年詞頻統計分析

2015 年相較於前一年而言,「實驗教育」一詞徒增,參與者方面則以「學 生」為最多,「家長」的頻率則略高於「老師」。在高頻率詞彙中則出現「圖 像」、「故事」、「自由」與「道德」等較為抽象的詞彙,「華德福」提及的 頻率較高,且「另類教育」也於排序中。制度面則開始出現「法規」、「評 鑑」、「師資」與「審議」,更具體的提及政策相關規定與問題。

表 4-5

2015 年詞頻分析

排序 詞彙 頻率 排序 詞彙 頻率

1 教育 288 11 孩子 91

2 學生 254 12 課程 90

3 學校 215 13 思考 87

4 實驗教育 155 14 家長 87

5 故事 150 15 道德 87

6 學習 147 16 研究 85

7 教學 121 17 發展 82

8 自由 117 18 老師 80

9 華德福 103 19 自己 79

10 圖像 92 20 世界 74

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖 4-7 2015 年詞頻分析長條圖

圖 4-8 2015 年詞頻分析文字雲

0

50 100 150 200 250 300 350

教育 學生 學校 實驗教育 故事 學習 教學 自由 華德福 圖像 孩子 課程 思考 家長 道德 研究 發展 老師 自己 世界

率 (

次 )

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

四、2016 年詞頻統計分析

2016 年詞彙頻率以「學校」為最高,參予者中仍以「學生」為最高,但此 年度中「家長」高於「教師」,並且「課程」大於「教學」。法規的探討也在 此年之文本中較高頻率的提及「條例」一詞,並更具體的提到「學校型態實驗 教育實施條例」,而「公立學校」提及的頻率也於排序中提升,特殊議題相關 詞彙則提及「偏鄉」、「轉型」、「聯盟」與「教育選擇權」。

表 4-6

2016 年詞頻分析

排序 詞彙 頻率 排序 詞彙 頻率

1 學校 662 11 教師 137

2 教育 656 12 教學 136

3 實驗教育 311 13 學校型態實驗教育 133 4 學生 273 14 公立學校 125

5 發展 245 15 理念 120

6 學習 189 16 辦理 115

7 課程 181 17 創新 110

8 條例 175 18 規定 108

9 家長 154 19 方式 98

10 實驗 154 20 孩子 98

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖 4-9 2016 年詞頻分析長條圖

圖 4-10 2016 年詞頻分析文字雲

0

100 200 300 400 500 600 700

學校 教育 實驗教育 學生 發展 學習 課程 條例 家長 實驗 教師 教學 學校型態實驗教育 公立學校 理念 辦理 創新 規定 方式

率 (

次 )

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

五、2017 年詞頻統計分析

2017 年詞頻排序前幾個詞彙仍以「教育」、「學校」與「實驗教育」較高,

且參與人員中仍以「學生」頻率為最高,且於文字雲中之呈現與「教師」的差 異相較於前兩年更為明顯,而「家長」也明顯少於「學生」與「教師」。特殊議 題中提及「原住民」與「偏鄉」的概念,並且於排序中有「合作」一詞的出 現,提及「師資」的頻率相較於前一年也高出許多。

表 4-7

2017 年詞頻分析

排序 詞彙 頻率 排序 詞彙 頻率

1 教育 1038 11 進行 162

2 學校 890 12 工作 161

3 實驗教育 696 13 創新 158

4 學生 442 14 教學 155

5 學習 375 15 家長 143

6 課程 294 16 特色 143

7 發展 255 17 問題 139

8 實驗 238 18 教育學 131

9 教師 201 19 研究 127

10 原住民 171 20 理念 123

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖 4-11 2017 年詞頻分析長條圖

圖 4-12 2017 年詞頻分析文字雲

0

200 400 600 800 1000 1200

教育 學校 實驗教育 學生 學習 課程 發展 實驗 教師 原住民 進行 工作 創新 教學 家長 特色 問題 教育學 研究 理念

率 (

次 )

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

六、2018 年詞頻統計分析

2018 年之高頻率詞彙雖仍以「學校」、「教育」「實驗教育」為主,但「學 生」、「學習」與「教師」、「教學」之頻率則明顯提升,並且以「學生」、「課 程」高於「教師」、「教學」,但在「家長」面則無提升反而下降。關於「原住 民」之議題仍保持較高頻率的探討,且出現「部落」、「素養」、「混齡」與「自 學」等特殊議題詞彙。

表 4-8

2018 年詞頻分析

排序 詞彙 頻率 排序 詞彙 頻率

1 教育 1688 11 實驗 367

2 學校 1461 12 原住民 358 3 實驗教育 1195 13 素養 351

4 學生 946 14 理念 331

5 課程 940 15 部落 317

6 教學 772 16 專業 292

7 學習 766 17 實施 286

8 教師 611 18 家長 277

9 發展 537 19 孩子 273

10 進行 368 20 混齡 237

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖 4-13 2018 年詞頻分析長條圖

圖 4-14 2018 年詞頻分析文字雲

0

200 400 600 800 1000 1200 1400 1600 1800

教育 學校 實驗教育 學生 課程 教學 學習 教師 發展 進行 實驗 原住民 素養 理念 部落 專業 實施 家長 孩子 混齡

率 (

次 )

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

七、2019 年詞頻統計分析

2019 年的詞彙中「學生」與「學習」頻率超過「學校」與「實驗教育」,

且大於「教學」與「教師」許多,此年份中「課程」與「研究」具有較高之排 序,並出現「耶拿」、「計畫」、「大學」,並大於前幾年所探討之「混齡」、「師 資」、「條例」與「自學」等特殊議題,明顯突增且議題聚焦鮮明。

表 4- 9

2019 年詞頻分析

排序 詞彙 頻率 排序 詞彙 頻率

1 學習 906 11 教師 196

2 學生 881 12 自己 185

3 學校 810 13 進行 174

4 教育 800 14 計畫 166

5 實驗教育 508 15 大學 161

6 課程 334 16 團體 158

7 研究 300 17 特殊 153

8 發展 270 18 耶拿 149

9 教學 231 19 問題 149

10 孩子 197 20 理念 148

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖 4-15 2019 年詞頻分析長條圖

圖 4-16 2019 年詞頻分析文字雲

0

100 200 300 400 500 600 700 800 900 1000

學習 學生 學校 教育 實驗教育 課程 研究 發展 教學 孩子 教師 自己 進行 計畫 大學 團體 特殊 耶拿 問題 理念

頻率(次)

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

八、2020 年詞頻統計分析

2020 年詞彙頻率中「學生」、「學習」與「課程」雖仍為頻率較高之詞彙,

但與「教師」與「家長」於文字雲中之呈現差異縮小,但「教學」一詞仍明顯 較少。特殊議題中「原住民」一詞雖仍存在,但頻率排序減少許多,而出現

「全人」、「實驗學校」與「社會」等議題,並較低頻率的開始提及「訪視」、

「經費」與「教材」,與前一年之聚焦方向明顯有所差異。

表 4-10

2020 年詞頻分析

排序 詞彙 頻率 排序 詞彙 頻率

1 教育 316 11 教師 89

2 學校 194 12 研究 65

3 學生 154 13 社會 56

3 學生 154 13 社會 56