• 沒有找到結果。

第二章 文獻探討

第四節 文字探勘運用於政策分析

方法將無法有效的執行分析。但 Aggarwal 和 Zhai(2012)也指出,最先進方法 仍有不足而到受到部分限制,因此無法在自然語言處理的過程裡中非常準確的

受到重視並被使用於教育政策的領域中。Stylios 等人(2010)也提出認為將文 字探勘運用於政策效果的評估是很有用的看法。Kwartler(2017)指出有許多的

相信單一來源的訊息而導致決策有所偏頗。Ananiadou 和 Mcnaught(2006)認 為文字探勘的優勢在於,它使研究人員能夠以有效且有系統的方式蒐集、維 護、解釋與管理和發現研究或教育所需的知識。而 Hung 和 Zhang(2012)提出 對於政府決策者而言,研究結果將提供支持性信息,以加深對研究優勢和劣勢

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

化或半自動化的數據處理,分析原始數據和製作可視化圖表,以便即時給予教 育政策的回饋與實施效果的評估。教育政策的評估過程中,人民意見的蒐集與 其數據分析成了重要且方便取得的資料之一。顏國梁(2003)認為處在知識管 理的時代,應該要能夠善用網際網路,並建議政府應建立教育法規或政策查詢 與回應(如民意信箱)的資訊網路系統,蒐集民眾對教育立法的意見。文字探勘 方法搜尋網路上之評論意見、報章雜誌與期刊論文之內容雖於現今時代方便且 容易執行,但若建立直接的平台管道更能有效減少搜索的時間成本。

因此,當今教育政策的制定需要透過蒐集民眾意見,以符合民主政治下的 決策程序,且需要透過社會互動的方式以凝聚社會共識,作為政策分析的建 議,以符應大多數人民的期待。搜尋網路文本作為民意的探討能夠直接且有效 的影響政策的方向與決策,兩者相輔相成,透過文字探勘分析技術作為政策分 析的輔助,運用文字精簡、視覺化圖表,使得決策過程能夠更有效率且方便,

同時也作為論證依據,幫助確保決策者決定的可信度(Kwartler, 2017)。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y 第三章 研究設計與實施

本研究以實驗教育三法公布以來所發表與政策相關之期刊、博碩士論文為 研究材料,運用文字探勘技術分析各年度文本中的詞彙頻率,並提煉出各年度 文獻中所涵蓋的主題,討論各年度間的變化並加以與現行政策做比對與分析。

本章節將針對研究架構、研究材料、研究工具以及資料處理與資料分析分章節 逐一說明之。

第一節 研究架構 壹、 研究架構

本研究旨運用文字探勘方法,資料蒐集階段分別於兩大資料庫中蒐集學術 期刊與博碩士論文,並運用詞頻統計、字詞權重分析方法以及主題模型的建構 分別找出實驗教育政策下,其相關文獻所討論的議題現況與方向,近一步對比 目前實驗教育政策修正的趨勢與發展的配套措施,與文本中分析出之議題與面 向是否吻合一致,最後提出建議給未來實驗教育政策修正與改進之建議,研究 架構圖如圖 3-1。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖 3-1 研究架構

貳、 架構圖說明

由圖 3-1 可知,本研究以分年份文本作為分析資料,用以統計分析主題模 型,以歸納並探討 2014 年實驗教育政策實施以來之議題討論方向與趨勢。茲將 研究架構內容分述如下:

一、文本資料

文本資料之背景變項為「期刊」以及「博碩士論文」,探討兩類型文本逐年 增加的狀況,並依照年份作區分後進行統計分析。

分年份文本資料 1. 華藝線上資料庫之期刊 2. 博碩士論文加值系統之論文

文本主題

(議題方向)

行政與制度 課程與教學

特定主題

(文字探勘技術)

A

B

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

二、文本主題

依據文獻探討之結果,將各年度之文本主題分為「課程與教學」、「行政與 制度」與「特定主題」,三個面向作討論。

三、研究路徑 (一) 路徑 A:

代表以分年份之文本作為分析資料,藉由文字探勘加以統計分析,建立主 題模型並歸納分年度的主題方向,探討不同年份之文本資料下,各年份主題模 型所代表的議題方向差異以及趨勢。

(二) 路徑 B:

將使用主題模型所歸納出之分年份議題方向分為「課程與教學」、「行政與 制度」與「特定主題」面向,藉以探討每年之實驗教育議題在這三個面向討論 的趨勢與轉變情形。

第二節 研究材料

本研究主運用文字探勘分析實驗教育政策實施以來獻有的文獻資料,而資 料的代表性有賴於資料蒐集的完整性與精確性。因此本研究採取國內兩大資料 庫做為研究材料蒐集來源,分別介紹如下:

壹、 期刊資料來源

本研究用於蒐集學術期刊的資料庫為 Airiti Library 華藝線上圖書館,該資 料庫收錄包含 CEPS 中文電子期刊、CETD 中文電子學位論文、會議論文以及 電子書,共計收錄 260 餘萬篇學術文獻。在 CEPS 中文電子期刊部分,收錄年 代自 1991 年起,內容指標以 A&HCI、SCI、SSCI、EI、TSSCI、CSSCI、

CA、Medline、中國科技引文、中文核心期刊要目總覽為依據,學術領域涵蓋 人文學、基礎與應用科學、醫藥衛生、生物農學、工程學、社會科學等六大 類。因此選擇該資料庫做為臺灣電子學術期刊資料蒐集來源,並以「實驗教

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

育」、「實驗學校」、「另類教育」作為關鍵詞,搜索條件設定為 2014 年至 2020 年間,地區限定為臺灣地區發表之文獻,搜索結果得到 80 篇期刊文章、

36 篇碩博士論文,其中包含社會科學領域 74 篇,人文學 8 篇,醫藥衛生 1 篇,且有部分文章同時分類為社會科學領域或人文學。本研究於此資料庫之標 的為學術期刊,並限於實驗教育政策相關之文獻,扣除醫藥衛生學科類別文獻 1 篇。由於本資料庫蒐集之資料限於期刊,不採用本資料庫之博碩士論文因此 於 Airiti Library 華藝線上圖書館蒐集到的學術期刊文獻為 79 篇,如圖 3-2。學 術期刊因其內容討論範圍可能較為廣泛,並且只要是具有電子全文之期刊即可 閱覽全文內容,無另外的限制條件,因此本研究分析學術期刊時,將採用期刊 全文進行分析。

圖 3-2 期刊文獻檢索狀況

資料來源:Airiti Library 華藝線上圖書館。取自 https://www.airitilibrary.com/

貳、 博碩士論文資料來源

博碩士論文文獻資料蒐集來源資料庫選擇使用 NDLTD 臺灣博碩士論文知 識加值系統,該系統屬於國家圖書館所設立之網站,並由教育部之委託,建立

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

國家級之完整學位論文總書目庫與資訊整合平台而建立。該資料庫論文書目資 料收錄範圍自 48 學年年度以來收錄至今,且為一般民眾皆可免費註冊帳號取得 公開電子文獻之平台,因此對於博碩士論文之收錄較為完整且取得較為便利。

而博碩士論文搜索因關鍵詞與摘要等欄位受限於各作者之認知差異,可能在搜 索時造成誤差。本研究以「實驗教育」、「實驗學校」、「另類教育」作為關 鍵詞,搜索欄位範圍限定於論文標題、摘要與關鍵詞三部分,畢業年份限制在 103 學年度至 109 學年度間之博碩士論文,所獲得的文獻為 126 篇,如下圖 3-3。博碩論文因其內容受限於目前政策所賦予作者的權限,資料電子全文公開 的時間並不一致,因此於實驗教育三法公布後所發表之博碩士論文,仍有許多 處於尚未公開全文之狀態,因此本研究分析博碩士論文時,將採用論文摘要部 分進行分析研究。

圖 3-3 博碩士論文文獻檢索狀況圖

資料來源:NDLTD 臺灣博碩士論文知識加值系統。取自

https://ndltd.ncl.edu.tw/cgi-bin/gs32/gsweb.cgi?randomimg=n50haE_1585252088&validpath=%2Ftmp%2F%5E nclcdr__doschk%2Fn50haE_1585252088__M3Q1N2pl&validinput=3t57je&check=

%E7%A2%BA%E5%AE%9A

的 CKIP (Chinese Knowledge Information Processing Group)中文斷詞系統,以及 中國大陸開發的 Jieba、Rwordseg 軟體套件,可以運用 R、Python 等軟體運作。

由於 CKIP 並非免費取得軟體,也尚未被廣泛使用;Rwordseg 因開發者當時的 設定需要有 Java 環境的支援,因此較為繁複。故本研究選擇使用 R 軟體執行 Jieba 套件,進行斷詞研究分析,分述如下:

一、R 軟體介紹

R 語言係由紐西蘭奧克蘭大學(The University of Auckland)統計系的 Ross Ihaka 和 Robert Gentleman 所開發。適用於 Windows、MacOS 以及 Unix 等作業 系統下皆能使用,因此被廣泛使用於統計分析、資料探勘的軟體,並且包含繪 圖功能將分析結果做視圖化呈現,以利使用者分析與解讀。R 軟體目前為免費 軟體,提供使用者線上取得,並且各研究者可自行開發軟體套件,進行更細部 的分析運作。R 軟體發展非常快速,並通過大量的軟體套件擴增其功能,但大 多數的套件僅適用於單樣的數據分析(Venables, Smith & R Core Team, 2020)。因 此本研究為達到分析目的,將使用多個 R 語言套件進行統計分析,分別按照斷 詞、資料清理、詞頻統計、TF-IDF 值計算、文字雲繪製與 LDA 主題建構等步 驟個別加入適用的套件進行分析。

二、JiebaR

JiebaR 又稱結巴斷詞工具,由覃文鋒先生開發,為中文分詞(Python)的 R 語言版本,使用最大機率法(Maximum Probability)、隱式馬爾科夫模型

(Hidden Markov Model)、索引模型(QuerySegment)、混合模型

(MixSegment),共四種分詞模式,同時有詞性標注、關鍵詞提取、Simhash

的資料庫,而選擇 Airiti Library 華藝線上圖書館與 NDLTD 臺灣博碩士論文知 識加值系統。按照上述之搜索條件設定,Airiti Library 華藝線上圖書館搜尋得 到 80 篇期刊文章、36 篇博碩士論文,其中包含社會科學領域 74 篇,人文學 8

2014年 2015年 2016年 2017年 2018年 2019年 2020年 篇

2014年 2015年 2016年 2017年 2018年 2019年 2020年 篇

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

文檔資料後,將進行第一次的詞頻統計測試,並依其結果扣除如「的」、「依 據」等較為無法做出主題歸納之詞彙,運用 R 軟體的套件建立停字詞去除,並 考量原有辭庫中是否不含有「公辦民營」、「實驗教育三法」等專有名詞,加 以使用擴增辭庫套件新增為可辨識之詞彙,以利後續資料統計時,資料的完整 性與準確性。

第五節 資料分析

資料分析階段將依據前面資料處理的結果進行統計分析與套論,首先按照 JiebaR 斷詞結果統計 7 個文本中的詞頻,並運用 TF-IDF 演算法計算出各詞彙在 文本中的權重後製作矩陣圖示。接著運用清理過後的數據資料進行主題模型中

資料分析階段將依據前面資料處理的結果進行統計分析與套論,首先按照 JiebaR 斷詞結果統計 7 個文本中的詞頻,並運用 TF-IDF 演算法計算出各詞彙在 文本中的權重後製作矩陣圖示。接著運用清理過後的數據資料進行主題模型中