文字探勘運用於政策分析 - 文獻探討 - 運用文字探勘探討臺灣實驗教育政策的實施與討論度分析

第二章文獻探討

第四節文字探勘運用於政策分析

方法將無法有效的執行分析。但 Aggarwal 和 Zhai（2012）也指出，最先進方法仍有不足而到受到部分限制，因此無法在自然語言處理的過程裡中非常準確的

‧

受到重視並被使用於教育政策的領域中。Stylios 等人（2010）也提出認為將文字探勘運用於政策效果的評估是很有用的看法。Kwartler（2017）指出有許多的

‧

相信單一來源的訊息而導致決策有所偏頗。Ananiadou 和 Mcnaught（2006）認為文字探勘的優勢在於，它使研究人員能夠以有效且有系統的方式蒐集、維護、解釋與管理和發現研究或教育所需的知識。而 Hung 和 Zhang（2012）提出對於政府決策者而言，研究結果將提供支持性信息，以加深對研究優勢和劣勢

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

化或半自動化的數據處理，分析原始數據和製作可視化圖表，以便即時給予教育政策的回饋與實施效果的評估。教育政策的評估過程中，人民意見的蒐集與其數據分析成了重要且方便取得的資料之一。顏國梁（2003）認為處在知識管理的時代，應該要能夠善用網際網路，並建議政府應建立教育法規或政策查詢與回應(如民意信箱)的資訊網路系統，蒐集民眾對教育立法的意見。文字探勘方法搜尋網路上之評論意見、報章雜誌與期刊論文之內容雖於現今時代方便且容易執行，但若建立直接的平台管道更能有效減少搜索的時間成本。

因此，當今教育政策的制定需要透過蒐集民眾意見，以符合民主政治下的決策程序，且需要透過社會互動的方式以凝聚社會共識，作為政策分析的建議，以符應大多數人民的期待。搜尋網路文本作為民意的探討能夠直接且有效的影響政策的方向與決策，兩者相輔相成，透過文字探勘分析技術作為政策分析的輔助，運用文字精簡、視覺化圖表，使得決策過程能夠更有效率且方便，

同時也作為論證依據，幫助確保決策者決定的可信度(Kwartler, 2017)。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y 第三章研究設計與實施

本研究以實驗教育三法公布以來所發表與政策相關之期刊、博碩士論文為研究材料，運用文字探勘技術分析各年度文本中的詞彙頻率，並提煉出各年度文獻中所涵蓋的主題，討論各年度間的變化並加以與現行政策做比對與分析。

本章節將針對研究架構、研究材料、研究工具以及資料處理與資料分析分章節逐一說明之。

第一節研究架構壹、研究架構

本研究旨運用文字探勘方法，資料蒐集階段分別於兩大資料庫中蒐集學術期刊與博碩士論文，並運用詞頻統計、字詞權重分析方法以及主題模型的建構分別找出實驗教育政策下，其相關文獻所討論的議題現況與方向，近一步對比目前實驗教育政策修正的趨勢與發展的配套措施，與文本中分析出之議題與面向是否吻合一致，最後提出建議給未來實驗教育政策修正與改進之建議，研究架構圖如圖 3-1。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 3-1 研究架構

貳、架構圖說明

由圖 3-1 可知，本研究以分年份文本作為分析資料，用以統計分析主題模型，以歸納並探討 2014 年實驗教育政策實施以來之議題討論方向與趨勢。茲將研究架構內容分述如下：

一、文本資料

文本資料之背景變項為「期刊」以及「博碩士論文」，探討兩類型文本逐年增加的狀況，並依照年份作區分後進行統計分析。

分年份文本資料 1. 華藝線上資料庫之期刊 2. 博碩士論文加值系統之論文

文本主題

（議題方向）

行政與制度課程與教學

特定主題

（文字探勘技術）

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

二、文本主題

依據文獻探討之結果，將各年度之文本主題分為「課程與教學」、「行政與制度」與「特定主題」，三個面向作討論。

三、研究路徑 (一) 路徑 A：

代表以分年份之文本作為分析資料，藉由文字探勘加以統計分析，建立主題模型並歸納分年度的主題方向，探討不同年份之文本資料下，各年份主題模型所代表的議題方向差異以及趨勢。

(二) 路徑 B：

將使用主題模型所歸納出之分年份議題方向分為「課程與教學」、「行政與制度」與「特定主題」面向，藉以探討每年之實驗教育議題在這三個面向討論的趨勢與轉變情形。

第二節研究材料

本研究主運用文字探勘分析實驗教育政策實施以來獻有的文獻資料，而資料的代表性有賴於資料蒐集的完整性與精確性。因此本研究採取國內兩大資料庫做為研究材料蒐集來源，分別介紹如下：

壹、期刊資料來源

本研究用於蒐集學術期刊的資料庫為 Airiti Library 華藝線上圖書館，該資料庫收錄包含 CEPS 中文電子期刊、CETD 中文電子學位論文、會議論文以及電子書，共計收錄 260 餘萬篇學術文獻。在 CEPS 中文電子期刊部分，收錄年代自 1991 年起，內容指標以 A&HCI、SCI、SSCI、EI、TSSCI、CSSCI、

CA、Medline、中國科技引文、中文核心期刊要目總覽為依據，學術領域涵蓋人文學、基礎與應用科學、醫藥衛生、生物農學、工程學、社會科學等六大類。因此選擇該資料庫做為臺灣電子學術期刊資料蒐集來源，並以「實驗教

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

育」、「實驗學校」、「另類教育」作為關鍵詞，搜索條件設定為 2014 年至 2020 年間，地區限定為臺灣地區發表之文獻，搜索結果得到 80 篇期刊文章、

36 篇碩博士論文，其中包含社會科學領域 74 篇，人文學 8 篇，醫藥衛生 1 篇，且有部分文章同時分類為社會科學領域或人文學。本研究於此資料庫之標的為學術期刊，並限於實驗教育政策相關之文獻，扣除醫藥衛生學科類別文獻 1 篇。由於本資料庫蒐集之資料限於期刊，不採用本資料庫之博碩士論文因此於 Airiti Library 華藝線上圖書館蒐集到的學術期刊文獻為 79 篇，如圖 3-2。學術期刊因其內容討論範圍可能較為廣泛，並且只要是具有電子全文之期刊即可閱覽全文內容，無另外的限制條件，因此本研究分析學術期刊時，將採用期刊全文進行分析。

圖 3-2 期刊文獻檢索狀況

資料來源：Airiti Library 華藝線上圖書館。取自 https://www.airitilibrary.com/

貳、博碩士論文資料來源

博碩士論文文獻資料蒐集來源資料庫選擇使用 NDLTD 臺灣博碩士論文知識加值系統，該系統屬於國家圖書館所設立之網站，並由教育部之委託，建立

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

國家級之完整學位論文總書目庫與資訊整合平台而建立。該資料庫論文書目資料收錄範圍自 48 學年年度以來收錄至今，且為一般民眾皆可免費註冊帳號取得公開電子文獻之平台，因此對於博碩士論文之收錄較為完整且取得較為便利。

而博碩士論文搜索因關鍵詞與摘要等欄位受限於各作者之認知差異，可能在搜索時造成誤差。本研究以「實驗教育」、「實驗學校」、「另類教育」作為關鍵詞，搜索欄位範圍限定於論文標題、摘要與關鍵詞三部分，畢業年份限制在 103 學年度至 109 學年度間之博碩士論文，所獲得的文獻為 126 篇，如下圖 3-3。博碩論文因其內容受限於目前政策所賦予作者的權限，資料電子全文公開的時間並不一致，因此於實驗教育三法公布後所發表之博碩士論文，仍有許多處於尚未公開全文之狀態，因此本研究分析博碩士論文時，將採用論文摘要部分進行分析研究。

圖 3-3 博碩士論文文獻檢索狀況圖

資料來源：NDLTD 臺灣博碩士論文知識加值系統。取自

https://ndltd.ncl.edu.tw/cgi-bin/gs32/gsweb.cgi?randomimg=n50haE_1585252088&validpath=%2Ftmp%2F%5E nclcdr__doschk%2Fn50haE_1585252088__M3Q1N2pl&validinput=3t57je&check=

%E7%A2%BA%E5%AE%9A

‧

的 CKIP (Chinese Knowledge Information Processing Group)中文斷詞系統，以及中國大陸開發的 Jieba、Rwordseg 軟體套件，可以運用 R、Python 等軟體運作。

由於 CKIP 並非免費取得軟體，也尚未被廣泛使用；Rwordseg 因開發者當時的設定需要有 Java 環境的支援，因此較為繁複。故本研究選擇使用 R 軟體執行 Jieba 套件，進行斷詞研究分析，分述如下：

一、R 軟體介紹

R 語言係由紐西蘭奧克蘭大學（The University of Auckland）統計系的 Ross Ihaka 和 Robert Gentleman 所開發。適用於 Windows、MacOS 以及 Unix 等作業系統下皆能使用，因此被廣泛使用於統計分析、資料探勘的軟體，並且包含繪圖功能將分析結果做視圖化呈現，以利使用者分析與解讀。R 軟體目前為免費軟體，提供使用者線上取得，並且各研究者可自行開發軟體套件，進行更細部的分析運作。R 軟體發展非常快速，並通過大量的軟體套件擴增其功能，但大多數的套件僅適用於單樣的數據分析(Venables, Smith & R Core Team, 2020)。因此本研究為達到分析目的，將使用多個 R 語言套件進行統計分析，分別按照斷詞、資料清理、詞頻統計、TF-IDF 值計算、文字雲繪製與 LDA 主題建構等步驟個別加入適用的套件進行分析。

二、JiebaR

JiebaR 又稱結巴斷詞工具，由覃文鋒先生開發，為中文分詞（Python）的 R 語言版本，使用最大機率法（Maximum Probability）、隱式馬爾科夫模型

‧

（Hidden Markov Model）、索引模型（QuerySegment）、混合模型

（MixSegment），共四種分詞模式，同時有詞性標注、關鍵詞提取、Simhash

‧

的資料庫，而選擇 Airiti Library 華藝線上圖書館與 NDLTD 臺灣博碩士論文知識加值系統。按照上述之搜索條件設定，Airiti Library 華藝線上圖書館搜尋得到 80 篇期刊文章、36 篇博碩士論文，其中包含社會科學領域 74 篇，人文學 8

‧

2014年 2015年 2016年 2017年 2018年 2019年 2020年篇

數

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

文檔資料後，將進行第一次的詞頻統計測試，並依其結果扣除如「的」、「依據」等較為無法做出主題歸納之詞彙，運用 R 軟體的套件建立停字詞去除，並考量原有辭庫中是否不含有「公辦民營」、「實驗教育三法」等專有名詞，加以使用擴增辭庫套件新增為可辨識之詞彙，以利後續資料統計時，資料的完整性與準確性。

第五節資料分析

資料分析階段將依據前面資料處理的結果進行統計分析與套論，首先按照 JiebaR 斷詞結果統計 7 個文本中的詞頻，並運用 TF-IDF 演算法計算出各詞彙在文本中的權重後製作矩陣圖示。接著運用清理過後的數據資料進行主題模型中

在文檔中運用文字探勘探討臺灣實驗教育政策的實施與討論度分析 - 政大學術集成 (頁 42-0)

文字探勘運用於政策分析

第二章 文獻探討

第四節 文字探勘運用於政策分析

‧

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y 第三章 研究設計與實施

第一節 研究架構 壹、 研究架構

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

貳、 架構圖說明

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第二節 研究材料

壹、 期刊資料來源

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

貳、 博碩士論文資料來源

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧

‧

‧

2014年 2015年 2016年 2017年 2018年 2019年 2020年 篇

2014年 2015年 2016年 2017年 2018年 2019年 2020年 篇

數

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第五節 資料分析

第二章文獻探討

第四節文字探勘運用於政策分析

立政治大學

立政治大學

l C h engchi U ni ve rs it y 第三章研究設計與實施

第一節研究架構壹、研究架構

立政治大學

貳、架構圖說明

立政治大學

第二節研究材料

壹、期刊資料來源

立政治大學

貳、博碩士論文資料來源

立政治大學

2014年 2015年 2016年 2017年 2018年 2019年 2020年篇

2014年 2015年 2016年 2017年 2018年 2019年 2020年篇

立政治大學

第五節資料分析