• 沒有找到結果。

第三章 研究設計與實施

第二節 研究材料

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

二、文本主題

依據文獻探討之結果,將各年度之文本主題分為「課程與教學」、「行政與 制度」與「特定主題」,三個面向作討論。

三、研究路徑 (一) 路徑 A:

代表以分年份之文本作為分析資料,藉由文字探勘加以統計分析,建立主 題模型並歸納分年度的主題方向,探討不同年份之文本資料下,各年份主題模 型所代表的議題方向差異以及趨勢。

(二) 路徑 B:

將使用主題模型所歸納出之分年份議題方向分為「課程與教學」、「行政與 制度」與「特定主題」面向,藉以探討每年之實驗教育議題在這三個面向討論 的趨勢與轉變情形。

第二節 研究材料

本研究主運用文字探勘分析實驗教育政策實施以來獻有的文獻資料,而資 料的代表性有賴於資料蒐集的完整性與精確性。因此本研究採取國內兩大資料 庫做為研究材料蒐集來源,分別介紹如下:

壹、 期刊資料來源

本研究用於蒐集學術期刊的資料庫為 Airiti Library 華藝線上圖書館,該資 料庫收錄包含 CEPS 中文電子期刊、CETD 中文電子學位論文、會議論文以及 電子書,共計收錄 260 餘萬篇學術文獻。在 CEPS 中文電子期刊部分,收錄年 代自 1991 年起,內容指標以 A&HCI、SCI、SSCI、EI、TSSCI、CSSCI、

CA、Medline、中國科技引文、中文核心期刊要目總覽為依據,學術領域涵蓋 人文學、基礎與應用科學、醫藥衛生、生物農學、工程學、社會科學等六大 類。因此選擇該資料庫做為臺灣電子學術期刊資料蒐集來源,並以「實驗教

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

育」、「實驗學校」、「另類教育」作為關鍵詞,搜索條件設定為 2014 年至 2020 年間,地區限定為臺灣地區發表之文獻,搜索結果得到 80 篇期刊文章、

36 篇碩博士論文,其中包含社會科學領域 74 篇,人文學 8 篇,醫藥衛生 1 篇,且有部分文章同時分類為社會科學領域或人文學。本研究於此資料庫之標 的為學術期刊,並限於實驗教育政策相關之文獻,扣除醫藥衛生學科類別文獻 1 篇。由於本資料庫蒐集之資料限於期刊,不採用本資料庫之博碩士論文因此 於 Airiti Library 華藝線上圖書館蒐集到的學術期刊文獻為 79 篇,如圖 3-2。學 術期刊因其內容討論範圍可能較為廣泛,並且只要是具有電子全文之期刊即可 閱覽全文內容,無另外的限制條件,因此本研究分析學術期刊時,將採用期刊 全文進行分析。

圖 3-2 期刊文獻檢索狀況

資料來源:Airiti Library 華藝線上圖書館。取自 https://www.airitilibrary.com/

貳、 博碩士論文資料來源

博碩士論文文獻資料蒐集來源資料庫選擇使用 NDLTD 臺灣博碩士論文知 識加值系統,該系統屬於國家圖書館所設立之網站,並由教育部之委託,建立

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

國家級之完整學位論文總書目庫與資訊整合平台而建立。該資料庫論文書目資 料收錄範圍自 48 學年年度以來收錄至今,且為一般民眾皆可免費註冊帳號取得 公開電子文獻之平台,因此對於博碩士論文之收錄較為完整且取得較為便利。

而博碩士論文搜索因關鍵詞與摘要等欄位受限於各作者之認知差異,可能在搜 索時造成誤差。本研究以「實驗教育」、「實驗學校」、「另類教育」作為關 鍵詞,搜索欄位範圍限定於論文標題、摘要與關鍵詞三部分,畢業年份限制在 103 學年度至 109 學年度間之博碩士論文,所獲得的文獻為 126 篇,如下圖 3-3。博碩論文因其內容受限於目前政策所賦予作者的權限,資料電子全文公開 的時間並不一致,因此於實驗教育三法公布後所發表之博碩士論文,仍有許多 處於尚未公開全文之狀態,因此本研究分析博碩士論文時,將採用論文摘要部 分進行分析研究。

圖 3-3 博碩士論文文獻檢索狀況圖

資料來源:NDLTD 臺灣博碩士論文知識加值系統。取自

https://ndltd.ncl.edu.tw/cgi-bin/gs32/gsweb.cgi?randomimg=n50haE_1585252088&validpath=%2Ftmp%2F%5E nclcdr__doschk%2Fn50haE_1585252088__M3Q1N2pl&validinput=3t57je&check=

%E7%A2%BA%E5%AE%9A

的 CKIP (Chinese Knowledge Information Processing Group)中文斷詞系統,以及 中國大陸開發的 Jieba、Rwordseg 軟體套件,可以運用 R、Python 等軟體運作。

由於 CKIP 並非免費取得軟體,也尚未被廣泛使用;Rwordseg 因開發者當時的 設定需要有 Java 環境的支援,因此較為繁複。故本研究選擇使用 R 軟體執行 Jieba 套件,進行斷詞研究分析,分述如下:

一、R 軟體介紹

R 語言係由紐西蘭奧克蘭大學(The University of Auckland)統計系的 Ross Ihaka 和 Robert Gentleman 所開發。適用於 Windows、MacOS 以及 Unix 等作業 系統下皆能使用,因此被廣泛使用於統計分析、資料探勘的軟體,並且包含繪 圖功能將分析結果做視圖化呈現,以利使用者分析與解讀。R 軟體目前為免費 軟體,提供使用者線上取得,並且各研究者可自行開發軟體套件,進行更細部 的分析運作。R 軟體發展非常快速,並通過大量的軟體套件擴增其功能,但大 多數的套件僅適用於單樣的數據分析(Venables, Smith & R Core Team, 2020)。因 此本研究為達到分析目的,將使用多個 R 語言套件進行統計分析,分別按照斷 詞、資料清理、詞頻統計、TF-IDF 值計算、文字雲繪製與 LDA 主題建構等步 驟個別加入適用的套件進行分析。

二、JiebaR

JiebaR 又稱結巴斷詞工具,由覃文鋒先生開發,為中文分詞(Python)的 R 語言版本,使用最大機率法(Maximum Probability)、隱式馬爾科夫模型