研究材料

第三章研究設計與實施

第二節研究材料

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

二、文本主題

依據文獻探討之結果，將各年度之文本主題分為「課程與教學」、「行政與制度」與「特定主題」，三個面向作討論。

三、研究路徑 (一) 路徑 A：

代表以分年份之文本作為分析資料，藉由文字探勘加以統計分析，建立主題模型並歸納分年度的主題方向，探討不同年份之文本資料下，各年份主題模型所代表的議題方向差異以及趨勢。

(二) 路徑 B：

將使用主題模型所歸納出之分年份議題方向分為「課程與教學」、「行政與制度」與「特定主題」面向，藉以探討每年之實驗教育議題在這三個面向討論的趨勢與轉變情形。

第二節研究材料

本研究主運用文字探勘分析實驗教育政策實施以來獻有的文獻資料，而資料的代表性有賴於資料蒐集的完整性與精確性。因此本研究採取國內兩大資料庫做為研究材料蒐集來源，分別介紹如下：

壹、期刊資料來源

本研究用於蒐集學術期刊的資料庫為 Airiti Library 華藝線上圖書館，該資料庫收錄包含 CEPS 中文電子期刊、CETD 中文電子學位論文、會議論文以及電子書，共計收錄 260 餘萬篇學術文獻。在 CEPS 中文電子期刊部分，收錄年代自 1991 年起，內容指標以 A&HCI、SCI、SSCI、EI、TSSCI、CSSCI、

CA、Medline、中國科技引文、中文核心期刊要目總覽為依據，學術領域涵蓋人文學、基礎與應用科學、醫藥衛生、生物農學、工程學、社會科學等六大類。因此選擇該資料庫做為臺灣電子學術期刊資料蒐集來源，並以「實驗教

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

育」、「實驗學校」、「另類教育」作為關鍵詞，搜索條件設定為 2014 年至 2020 年間，地區限定為臺灣地區發表之文獻，搜索結果得到 80 篇期刊文章、

36 篇碩博士論文，其中包含社會科學領域 74 篇，人文學 8 篇，醫藥衛生 1 篇，且有部分文章同時分類為社會科學領域或人文學。本研究於此資料庫之標的為學術期刊，並限於實驗教育政策相關之文獻，扣除醫藥衛生學科類別文獻 1 篇。由於本資料庫蒐集之資料限於期刊，不採用本資料庫之博碩士論文因此於 Airiti Library 華藝線上圖書館蒐集到的學術期刊文獻為 79 篇，如圖 3-2。學術期刊因其內容討論範圍可能較為廣泛，並且只要是具有電子全文之期刊即可閱覽全文內容，無另外的限制條件，因此本研究分析學術期刊時，將採用期刊全文進行分析。

圖 3-2 期刊文獻檢索狀況

資料來源：Airiti Library 華藝線上圖書館。取自 https://www.airitilibrary.com/

貳、博碩士論文資料來源

博碩士論文文獻資料蒐集來源資料庫選擇使用 NDLTD 臺灣博碩士論文知識加值系統，該系統屬於國家圖書館所設立之網站，並由教育部之委託，建立

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

國家級之完整學位論文總書目庫與資訊整合平台而建立。該資料庫論文書目資料收錄範圍自 48 學年年度以來收錄至今，且為一般民眾皆可免費註冊帳號取得公開電子文獻之平台，因此對於博碩士論文之收錄較為完整且取得較為便利。

而博碩士論文搜索因關鍵詞與摘要等欄位受限於各作者之認知差異，可能在搜索時造成誤差。本研究以「實驗教育」、「實驗學校」、「另類教育」作為關鍵詞，搜索欄位範圍限定於論文標題、摘要與關鍵詞三部分，畢業年份限制在 103 學年度至 109 學年度間之博碩士論文，所獲得的文獻為 126 篇，如下圖 3-3。博碩論文因其內容受限於目前政策所賦予作者的權限，資料電子全文公開的時間並不一致，因此於實驗教育三法公布後所發表之博碩士論文，仍有許多處於尚未公開全文之狀態，因此本研究分析博碩士論文時，將採用論文摘要部分進行分析研究。

圖 3-3 博碩士論文文獻檢索狀況圖

資料來源：NDLTD 臺灣博碩士論文知識加值系統。取自

https://ndltd.ncl.edu.tw/cgi-bin/gs32/gsweb.cgi?randomimg=n50haE_1585252088&validpath=%2Ftmp%2F%5E nclcdr__doschk%2Fn50haE_1585252088__M3Q1N2pl&validinput=3t57je&check=

%E7%A2%BA%E5%AE%9A

‧

的 CKIP (Chinese Knowledge Information Processing Group)中文斷詞系統，以及中國大陸開發的 Jieba、Rwordseg 軟體套件，可以運用 R、Python 等軟體運作。

由於 CKIP 並非免費取得軟體，也尚未被廣泛使用；Rwordseg 因開發者當時的設定需要有 Java 環境的支援，因此較為繁複。故本研究選擇使用 R 軟體執行 Jieba 套件，進行斷詞研究分析，分述如下：

一、R 軟體介紹

R 語言係由紐西蘭奧克蘭大學（The University of Auckland）統計系的 Ross Ihaka 和 Robert Gentleman 所開發。適用於 Windows、MacOS 以及 Unix 等作業系統下皆能使用，因此被廣泛使用於統計分析、資料探勘的軟體，並且包含繪圖功能將分析結果做視圖化呈現，以利使用者分析與解讀。R 軟體目前為免費軟體，提供使用者線上取得，並且各研究者可自行開發軟體套件，進行更細部的分析運作。R 軟體發展非常快速，並通過大量的軟體套件擴增其功能，但大多數的套件僅適用於單樣的數據分析(Venables, Smith & R Core Team, 2020)。因此本研究為達到分析目的，將使用多個 R 語言套件進行統計分析，分別按照斷詞、資料清理、詞頻統計、TF-IDF 值計算、文字雲繪製與 LDA 主題建構等步驟個別加入適用的套件進行分析。

二、JiebaR

JiebaR 又稱結巴斷詞工具，由覃文鋒先生開發，為中文分詞（Python）的 R 語言版本，使用最大機率法（Maximum Probability）、隱式馬爾科夫模型

在文檔中運用文字探勘探討臺灣實驗教育政策的實施與討論度分析 - 政大學術集成 (頁 48-51)

第三章 研究設計與實施

第二節 研究材料

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第二節 研究材料

壹、 期刊資料來源

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

貳、 博碩士論文資料來源

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

第三章研究設計與實施

第二節研究材料

立政治大學

第二節研究材料

壹、期刊資料來源

立政治大學

貳、博碩士論文資料來源

立政治大學