• 沒有找到結果。

以巨量資料探勘氣候變遷主題詞彙網絡 應用於教與學之探究

N/A
N/A
Protected

Academic year: 2021

Share "以巨量資料探勘氣候變遷主題詞彙網絡 應用於教與學之探究"

Copied!
32
0
0

加載中.... (立即查看全文)

全文

(1)

教 育 研 究 與 發 展 期 刊

第十四卷第二期 2018年6月 頁93-124 DOI 10.3966/181665042018061402004

以巨量資料探勘氣候變遷主題詞彙網絡 應用於教與學之探究

彭致翎

國家教育研究院語文教育及編譯研究中心副研究員

吳鑑城

國家教育研究院語文教育及編譯研究中心助理研究員

劉君毅

國家教育研究院課程及教學研究中心助理研究員

摘 要

在巨量資料的社會,教科書已不易滿足學習所需,藉助科技擷取生活脈絡中 有意義的資訊融入教學,應為教學創新可行之途徑。本研究採資料探勘技術,以 大量的新聞語料就氣候變遷主題詞彙進行篩檢,配合詞彙資料庫比對、專家檢核、

教師問卷等,萃取氣候變遷關鍵詞彙群,並透過視覺化詞彙網絡圖呈現,併同學 生紙筆測驗及師生訪談、蒐集回饋資訊等方式,探究教與學應用之可行性。本研 究發現,採自巨量資料之詞彙網絡特點包含:一、巨量實徵:詞彙資料來源客觀,

視覺化圖像有助明瞭;二、探索關鍵:藉由詞彙之關聯,窺知詞彙代表意涵;三、

跨域學習:跨越領域學科,推敲詞彙共現形成之知識概貌;四、統整詮釋:突破 單科限制,促進統整詮釋思維方式;五、批判反思:提供機會線索,反思新聞背 後隱含意義。本研究嘗試跨越文本框架,以詞彙探勘及應用探究,構作貼近現實 世界複雜知識表徵之補充教材,深化詞彙理解在學習之意義,期能為教師於從事 跨領域跨科主題教學,或涉獵新興議題、時事結合、處於變化中事物時,開創更 適切之輔助資源。

關鍵詞:巨量資料、資料探勘、詞彙網絡、教學創新、中等教育課程

劉君毅電子郵件:[email protected]

(2)

The Applications of Lexicon Network of Climate Change Themes to Teaching and Learning

through Data Mining

Chih-Ling Peng

Associate Research Fellow, Research Center for Translation, Compilation and Language Education, National Academy for Educational Research

Jian-Cheng Wu

Assistant Research Fellow, Research Center for Translation, Compilation and Language Education, National Academy for Educational Research

Chun-Yi Liu

Assistant Research Fellow, Research Center for Curriculum and Instruction, National Academy for Educational Research

Abstract

In a society with an enormous amount of data, textbooks can hardly meet the needs of learning. Integrating the meaningful information acquired in the life context by using science and technology into teaching should be a feasible approach to instructional innovation. This study extracts keywords for climate change by using the technique of data mining to screen a news corpus based on climate change topics, along with comparing the corpus, expert checks, and teacher questionnaires. The study presents visual vocabulary network, using tests, interviews with teachers and students and collection of feedback information to explore its potential applications on teaching and learning. The results show that the lexicon network could be applied into several aspects of the empirical applications of data mining, the visualization of knowledge hybrid representation, the crosscutting instruction and learning, integral interpretation, and reflection. Finally, this study suggests that the technique of data-mining of the corpus could be an applicable research methodology to effectively integrate various knowledge systems of corpora, and the visualization of lexicon network could be an integral knowledge hybrid representation of facilitating instruction and learning of reading comprehension. This study attempts to cross the boundary between different textual frameworks to deepen the significance of vocabulary comprehension in learning, through vocabulary mining and its application and the construction of supplementary materials that are close to the representation of complex knowledge in the real world.

This study can facilitate teachers to engage with cross-domain and cross-curricular thematic teaching, integrate emerging issues and current events into teaching, or create more appropriate supporting resources in the midst of change.

Keywords: big data, data mining, lexicon network, instructional innovation, secondary curriculum

Chun-Yi Liu’s E-mail: [email protected]

(3)

以巨量資料探勘氣候變遷主題詞彙網絡應用於教與學之探究

彭致翎 吳鑑城 劉君毅 95

壹、前言

晚近課程改革的國際趨勢從以往偏重事實知識的傳授,轉向重視知識的理解、

應用、分析、綜合與評鑑,將零碎片段的知識,轉化擴展到從脈絡應用學習統整 知識(UNESCO-IBE, 2013)。我國十二年國民基本教育課程綱要亦強調素養導向,

課程改革呼籲貼近生活脈絡的學習,以及學習理解之重要性。

隨著網路發展電子媒體普及,快速產生出大量的文本資訊,宣告大數據(Big Data,又稱巨量資料)時代的來臨。語料庫即是一批為了特定目的,且根據特定 原則採樣或蒐集的語言材料,可透過電腦科技大量儲存、檢索、演算統計分析,

提供許多真實又豐富的語言樣態,跳脫傳統文本的限制,呈現知識多元性表徵。

由於語料來源不同,它們所用的名稱詞彙、關聯程度彼此間可能也不盡一致。網 路資訊蓬勃發展之際,知識範疇無窮無盡,來自各地不同來源的語料文本,複雜 化了彼此之間的關係,網路開始扮演起跨越專業和業餘科學家之間的斷層與鴻溝 的角色(Weinberger, 2012)。另一方面,新聞媒體透過網絡媒介傳播科學訊息,

具有相當能見度和輿論主導的地位。凡此種種,說明了科學知識傳遞的演變,在 現今社會文化脈絡中,科學傳播充滿了更多變數與雜訊,也讓科學學習多了重重 的考驗,教師和學生都需體認這個可能成為學習干擾的因素,並找尋有效的認知 策略或工具加以解決調適,化阻力為助力。

不論知識表徵如何多元,文字仍是最重要且不可或缺的媒介形式。而詞彙是 閱讀理解的基本元素,也是語言上可見最小的訊息單位,有相對應的意義。理解 詞彙意涵是學習進入各學門知識領域的基礎,就認知方面的應用分析、綜合評鑑、

創造等高層次學習,均須具備豐富的語彙知識。科學詞彙,或稱科學術語,需透 過其他詞彙來定義、說明或解釋,每一個詞彙都會和其他詞彙之間產生關聯。若 將科學詞彙比喻為概念系統架構中的節點,而說明詞彙關係的論述就如同概念系 統中用來串連節點的線條,具有聯繫與架構整個系統的功能。科學文本的關鍵詞 往往是科學詞彙,它們與學生理解學習效果息息相關,以往是由教師和專家學者 來判斷,列入文本或教科書內作為參考。然而關於自巨量資料擷取關鍵詞彙,以 及如何呈現應用於教與學的議題探討目前尚付之闕如,值得探究。

跨領域學科主題式教學可發展學生整合所學運用於真實情境的素養,學習 的內容往往是新興議題、結合時事,或正在變化中的事物,傳統教科書可能著墨

(4)

有限,故如何更精準窺見事件全貌、掌握概念核心與知識範疇,且不脫離社會脈 絡,成為教師教學時的重要考量。本研究針對永續發展之氣候變遷為探討主題,

進行關鍵詞彙探勘及教學應用之探析,乃基於其不僅為全球性議題、在地化問 題,更是和現實生活世界緊密連結,具跨領域跨學科知識性質,勢需正視。氣候 變遷最初作為一個科學議題,其研究結果在19 世紀初並未獲得重視,但隨著許 多的科學研究報告,以及新聞上氣候異常所引起的極端事件在世界各地造成的災 難報導,各國意識到採取共同行動的重要性(楊惟任,2014)。自從工業革命以 來,人類所製造大量的二氧化碳、氧化亞氮、甲烷、氟氯碳化物等溫室氣體,對 大自然的影響已不再只是侷限於地表,而是擴張至大氣當中,而且藉由大氣的運 動,其影響逐漸擴及全球(許晃雄,2001)。根據聯合國政府間氣候變遷專門委 員會(Intergovernmental Panel on Climate Change, IPCC)報告,近百年來全球平均 溫度上升的速度大約是五千年前到一萬年前的30 倍;自 2000 年之後,全球溫度 屢創新高,受到暖化的衝擊,全球極端天氣頻率強度有逐漸加劇的趨勢(Stocker, 2014)。究其科學知識的本質,氣候變遷乃是一門複雜科學,涉及大氣圈、地質 圈、水圈、冰雪圈、生物圈等,乃至於人類社會,變因眾多且各變因複雜相互影響;

氣候變遷發生的範圍是全球性,影響範疇包括生態環境、人類、社會和經濟等層 面。關於全球氣候變遷的觀測資料和研究,現今仍受世界各國矚目並持續更新中,

對於現象解釋及變化趨勢觀察,學界仍存有非常大的不確定性(周佳、劉紹臣,

2012)。臺灣基於環境因素,屬於高災害風險地區,受氣候變遷的衝擊影響近年 來尤其明顯,諸如全球暖化造成海平面上升;颱風強度增強,臺灣受颱風侵襲的 機率提升;北極振盪導致季節變化溫度落差極大;甚至極端的乾旱、強降雨……

等,都是居民最大的考驗。面對氣候變遷的影響與威脅,各國政府所採取的應對 作為,除了對溫室氣體排放控制的減緩(mitigation)措施,亦採取相對應的調適

(adaptation)等策略(國家科學委員會,2011)。如何從環境教育著手,提升國 民對氣候變遷重要性的認識與理解,值得投入更多的關注。

即將實施的十二年國民基本教育課程綱要並未將環境教育所需術語或關鍵詞 彙予以蒐集編錄,本研究主張對環境知識建立在正確的認知基礎上,對理解環境 問題及其知識結構與關鍵內涵,應為學習環境議題之首要,而術語詞彙是構成學 科知識體系中的基本元素,亦是培養學科核心能力之前必須熟識的認知基礎,對 於術語詞彙定義的理解釐清及正確運用,就各種知識和概念尚待建立的學生而言

(5)

以巨量資料探勘氣候變遷主題詞彙網絡應用於教與學之探究

彭致翎 吳鑑城 劉君毅 97

相形重要(彭致翎、陳建民,2014)。為此,本研究開發適合教學應用的關鍵詞 探勘技術,試圖跨越媒體間不同新聞文本的框架,建構發掘知識架構的工具雛形,

並透過視覺化詞彙網絡方式呈現,從中窺見詞彙間共同架構形成的意義,突破傳 統單以圖片或文字呈現的知識表徵形式,而是以知識混合(knowledge hybird)風 貌呈現,兼具語言文字及視覺圖像之特質;此方法有別於另一種吾人熟知的概念 圖方法,超越其僅只呈現個人經驗知識之主觀與侷限性。為了體現教學創新,本 研究亦嘗試發展教師於科學教學時可茲運用的輔助工具,為新課綱尋求科技融入 教學實驗題材。

基於上述背景動機,本研究以「氣候變遷」主題為研究範疇,透過巨量資料 探勘技術產出關鍵詞彙網絡,同時探究關鍵詞彙網絡進行教與學之應用及可能遭 遇到的問題。本研究目的如下:

一、開發關鍵詞彙擷取系統,提供目標詞彙相關詞分布情形,並視覺化呈現目標 詞彙網絡。

二、探究詞彙網絡圖應用於教師教學及學生學習之可行性。

貳、文獻探討

一、科學素養即科學識讀能力

國際學生能力評量計畫(Programme for International Student Assessment, PISA)將科學素養定義為,能夠運用科學知識來辨識科學問題、獲得新知、解釋 科學現象,並形成證據導向的結論;能理解科學特徵是一種人類知識探索的型態;

能覺察科學與科技用來形塑周遭物質、知識以及文化的環境;並且成為一個具有 意願投入科學相關議題、具有科學概念,及能反思的公民(OECD, 2009)。簡言 之,科學素養即指具備思考和判斷科學現象的知識,辨別與解決生活中科學的問 題,以及具備積極面對生活中的疑難,並作出理性判斷和決定的態度(國家教育 研究院,2013)。科學素養提升之關鍵是培育生活在當前科技時代的人們,都能 對科學和技術具備基本的知識,從而發展利用科學和技術的能力。

從識讀的觀點而言,有關國際對學生閱讀素養評量之評比,除了上述由經濟 合作暨發展組織(OECD)進行的 PISA 評量,針對 15 歲學生的數學、科學及閱讀

(6)

素養進行國際性的比較研究,檢驗學生從學校學得的知識與技能,應用於日常生 活、解決實際問題的能力;此外,另一項評比則是由國際教育成就評鑑協會(IEA)

所主導的「促進國際閱讀素養研究(Progress in International Reading Literacy Study, PIRLS)」。就閱讀素養而言,根據 PIRLS 2006 的定義,是指學生能夠理解並運 用書寫語言的能力,能夠從各式各樣的文章中建構出意義、從閱讀中學習,掌握 了解問題的意涵、運用適當的關鍵字來進行搜尋及有效查找訊息,並且能批判性 評估訊息的正確性與否。因此,閱讀不僅只限於國語科和國語教師的事,對於每 一位老師,都有介紹不同文體、不同文本內容給學生閱讀的責任(柯華葳、詹益 綾、張建妤、游婷雅,2009)。

那麼,PISA 又是如何了解學生的科學素養呢?其衡量的面向包括:(1)獲 取訊息的能力:學生是否能否從所閱讀的文字中,迅速找到自己需要的訊息;

(2)理解訊息的能力:學生能否在閱讀之後,從資料當中,正確解讀出訊息所傳 達的意涵;(3)思考和判斷能力:學生能否將所研讀的內容和自己原本既有的知 識、想法和經驗相連結,再經由綜合判斷以後,提出屬於自己的觀點想法(OECD, 2007, 2009)。綜上所述,厚植科學素養科學識讀須重視學生概念理解、問題解決 的能力,反映於課程教學評量設計上,應以發展學生正確、關鍵且重要的科學概 念,整體性理解、系統性思考,將有助於提升學習理解與學習成效,並運用所學 分析與解決日常生活所遇到的問題。

二、科學學習應強調概念之連結

不論是PISA 或是 PIRLS 從科學識讀理解觀點,均強調以概念連結為基礎。

Ausubel 認為影響學習最大的因素是在學生已知部分,指出有意義的學習應該是 將新的知識與學習認知結構中既存的適當概念,彼此間建立連結的過程。所以教 材必須要有意義、學習者須有選擇意識,能將適當概念構連到新概念(Mintzes, Wandersee, & Novak, 1998)。 科 學 教 育 強 調 具 體 經 驗、 動 手 實 作, 但 是 釐 清 科學名詞、概念和陳述性的命題亦不容忽視。教師在正式授課前學習定錨概念

(anchoring concepts),提供後續助長新學習的基礎。科學教育目標是質重於量,

意義重於記憶、理解重於知覺,易言之,課程教學應聚焦在核心概念上,強調這 些概念之間的關係以及連結(Mintzes, Wandersee, & Novak, 1998)。如果能將呈現 事實的術語與特定細節、要素的知識加以概念化,將可幫助學生釐清在學習理解

(7)

以巨量資料探勘氣候變遷主題詞彙網絡應用於教與學之探究

彭致翎 吳鑑城 劉君毅 99

基本要素知識時,彼此之間的結構連動關係。

由此可知,詞彙理解是概念學習的基礎。而術語是各類學科知識體系中的基 本要素,也是培養學科核心能力必須熟識的關鍵詞彙,學生在學習過程中必須充 分理解這些關鍵詞彙,才能有效進行觀念表達、意見溝通或問題討論(Anderson

& Krathwohl, 2001)。學習關鍵詞彙與核心知識,從串接記憶事實到概念理解,並 不是記憶零碎片段的知識而已,就素養導向認知學習關注的重點,學習的成就並 非是記憶背誦,而是解決問題的能力。Barrass(1984)以及 Mintzes、Wandersee 和Novak(1998)曾指出,科學教科書應篩選出必要學習的術語作為教學的目標,

使學生得以在充分的時間之下學好科學詞彙所蘊含的意義。科學教師也要有專業 能力,自行判斷選擇重要且必要的術語教學生,而不是將教科書上所有標示粗、

斜體,及附錄索引上的科學術語全都列為教學目標。透過深入理解掌握術語詞彙 知識的意涵,貫通構連相關的概念,超越單純記憶背誦孤立的資訊,以達真正理 解學習。

三、關鍵詞彙探勘之重要性

關鍵詞是指一篇文本中,對於描述該文之主題內容具有重要實質意義的詞彙,

因此文章或書籍等往往替描述重要概念或是特定事物的關鍵詞彙,建立關鍵詞列 表或是書後索引。在現今資訊爆炸的時代,巨量文本資料意味著豐沛的資訊,但 這也造成了讀者資料搜尋和判斷上的負擔,益發突顯文本關鍵詞之重要性。藉由 文章的關鍵詞,讀者能夠快速地掌握文章中欲呈現的主要概念;另一方面,透過 關鍵詞,讀者更可以有效率查找,並且取得相關概念的其他文本資料。

然而,大多數的文本資料並未具有關鍵詞資訊,若僅依賴人工為眾多文本逐 一增加關鍵詞表,實是曠日廢時。因此,自1970 年代開始,學界已有關鍵詞自動 擷取的相關研究(Jones, 1972; Nagao, Mizutani, & Ikeda, 1976)。近半世紀來,自 動擷取關鍵詞的方法,從最初統計詞彙出現於單一文本的次數,並考量詞彙出現 於各文本的情形作為關鍵性依據(Jones, 1972; Robertson, 2004),進一步到考量 詞彙與詞彙之間的關係來提升擷取效能(Matsuo & Ishizuka, 2004; Ohsawa, Benson,

& Yachida, 1998)。 至 於 關 鍵 詞 自 動 擷 取 技 術, 現 更 已 普 遍 應 用 於 資 訊 檢 索

(Information retrieval)(Bracewell, Ren, & Kuriowa, 2005; Chien, 1997)、文件分 群(document clustering)(Hammouda, Matute, & Kamel, 2005; Tonella, Ricca,

(8)

Pianta, & Girardi, 2003)、 自 動 摘 要(automatic summarization)(Buyukkokten, Garcia-Molina, & Paepcke, 2001; Litvak & Last, 2008), 以 及 輔 助 書 後 索 引 建 立

(Tseng, 2002)等相關研究領域,被視為重要的前置技術。本研究過程亦採用了 關鍵詞彙擷取技術作為取得目標文本關鍵詞彙的方法。

參、研究方法

一、巨量資料之詞彙探勘

(一)文本關鍵詞組探勘

本研究嘗試開發並建置關鍵詞自動擷取系統,以取得文本關鍵詞彙,供後續 視覺化關鍵詞彙形成的網絡之用。該系統能綜合考量各詞語於目標文本中出現之 詞頻、判別是否屬於專業術語,以及各詞語之間的關聯性等,可作為詞彙關鍵性 評估之依據。茲將方法列述如下:

中文分詞與詞性之標注為處理中文語料過程中最基礎,也是最重要的步驟 之一。傳統中文分詞主要是利用辭典,以及人工撰寫之構詞規則進行分詞處理。

然而,構詞規則需透過專家撰寫,過程繁複,並可能存在人為之矛盾、衝突的情 形。至於規則式斷詞的缺點,則在於過度依賴內建詞典的品質,尤其是參考詞典 收錄的詞條數量,對於文本中出現的新詞彙(未知詞),自動分詞系統處理起來 能力將較為不足,無法有效處理新詞的問題。在結合機器學習理論的趨勢下,中 文分詞技術也趨向使用機器學習的方式來開發分詞模組及工具,目前常見的方法 包括使用支援向量機(Support Vector Machine, SVM)(Asahara et al., 2005)、最 大熵(Maximum Entropy, ME)(Xue, 2003),以及採用條件隨機域(Conditional Random Fields, CRFs)(Peng, Feng, & McCallum, 2004)等方式。前述相關研究證 實使用機器學習方式所開發的分詞系統,可達到更佳的分詞準確性。以CRFs 方式 為例,它將中文分詞視為一種序列標記的任務,藉由訓練資料以及所給予的各種 特徵(features),先行訓練其模組。此統計模型公式簡述如下:

9

參、研究方法

一、巨量資料之詞彙探勘

(一)文本關鍵詞組探勘

本研究嘗試開發並建置關鍵詞自動擷取系統,以取得文本關鍵詞彙,供後 續視覺化關鍵詞彙形成的網絡之用。該系統能綜合考量各詞語於目標文本中出現 之詞頻、判別是否屬於專業術語,以及各詞語之間的關聯性等,可作為詞彙關鍵 性評估之依據。茲將方法列述如下:

中文分詞與詞性之標注為處理中文語料過程中最基礎,也是最重要的步驟 之一。傳統中文分詞主要是利用辭典,以及人工撰寫之構詞規則進行分詞處理。

然而,構詞規則需透過專家撰寫,過程繁複,並可能存在人為之矛盾、衝突的情 形。至於規則式斷詞的缺點,則在於過度依賴內建詞典的品質,尤其是參考詞典 收錄的詞條數量,對於文本中出現的新詞彙(未知詞),自動分詞系統處理起來 能力將較為不足,無法有效處理新詞的問題。在結合機器學習理論的趨勢下,中 文分詞技術也趨向使用機器學習的方式來開發分詞模組及工具,目前常見的方法 包括使用支援向量機( Support Vector Machine, SVM)(Asahara et al., 2005)、最 大熵(Maximum Entropy, ME)(Xue, 2003),以及採用條件隨機域(Conditional Random Fields, CRFs)(Peng, Feng & McCallum, 2004)等方式。前述相關研究證 實使用機器學習方式所開發的分詞系統,可達到更佳的分詞準確性。以 CRFs 方 式為例,它將中文分詞視為一種序列標記的任務,藉由訓練資料以及所給予的各 種特徵(features),先行訓練其模組。此統計模型公式簡述如下:

����� � 1

��� �� � �

��

���

� �

� �� ��

���

其中, �

是正規化因子( normalization factor),�

��

���

� �

� �� ��是設定的各

種特徵函數, �

則是各個特徵函數的權重值(weight),在訓練過程中,系統將

會取得最佳的權重,以作為後續應用時的預設權重值。而後在應用時,透過訓練

(9)

以巨量資料探勘氣候變遷主題詞彙網絡應用於教與學之探究

彭致翎 吳鑑城 劉君毅 101

其中,

9

參、研究方法

一、巨量資料之詞彙探勘

(一)文本關鍵詞組探勘

本研究嘗試開發並建置關鍵詞自動擷取系統,以取得文本關鍵詞彙,供後 續視覺化關鍵詞彙形成的網絡之用。該系統能綜合考量各詞語於目標文本中出現 之詞頻、判別是否屬於專業術語,以及各詞語之間的關聯性等,可作為詞彙關鍵 性評估之依據。茲將方法列述如下:

中文分詞與詞性之標注為處理中文語料過程中最基礎,也是最重要的步驟 之一。傳統中文分詞主要是利用辭典,以及人工撰寫之構詞規則進行分詞處理。

然而,構詞規則需透過專家撰寫,過程繁複,並可能存在人為之矛盾、衝突的情 形。至於規則式斷詞的缺點,則在於過度依賴內建詞典的品質,尤其是參考詞典 收錄的詞條數量,對於文本中出現的新詞彙(未知詞),自動分詞系統處理起來 能力將較為不足,無法有效處理新詞的問題。在結合機器學習理論的趨勢下,中 文分詞技術也趨向使用機器學習的方式來開發分詞模組及工具,目前常見的方法 包括使用支援向量機(Support Vector Machine, SVM)(Asahara et al., 2005)、最 大熵(Maximum Entropy, ME)(Xue, 2003),以及採用條件隨機域(Conditional Random Fields, CRFs)(Peng, Feng & McCallum, 2004)等方式。前述相關研究證 實使用機器學習方式所開發的分詞系統,可達到更佳的分詞準確性。以CRFs 方 式為例,它將中文分詞視為一種序列標記的任務,藉由訓練資料以及所給予的各 種特徵(features),先行訓練其模組。此統計模型公式簡述如下:

����� � 1

��� �� � ������� �� �� ��

���

其中,�是正規化因子(normalization factor),������� �� �� ��是設定的各 種特徵函數,�則是各個特徵函數的權重值(weight),在訓練過程中,系統將 會取得最佳的權重,以作為後續應用時的預設權重值。而後在應用時,透過訓練

是正規化因子(normalization factor),

9

參、研究方法

一、巨量資料之詞彙探勘

(一)文本關鍵詞組探勘

本研究嘗試開發並建置關鍵詞自動擷取系統,以取得文本關鍵詞彙,供後 續視覺化關鍵詞彙形成的網絡之用。該系統能綜合考量各詞語於目標文本中出現 之詞頻、判別是否屬於專業術語,以及各詞語之間的關聯性等,可作為詞彙關鍵 性評估之依據。茲將方法列述如下:

中文分詞與詞性之標注為處理中文語料過程中最基礎,也是最重要的步驟 之一。傳統中文分詞主要是利用辭典,以及人工撰寫之構詞規則進行分詞處理。

然而,構詞規則需透過專家撰寫,過程繁複,並可能存在人為之矛盾、衝突的情 形。至於規則式斷詞的缺點,則在於過度依賴內建詞典的品質,尤其是參考詞典 收錄的詞條數量,對於文本中出現的新詞彙(未知詞),自動分詞系統處理起來 能力將較為不足,無法有效處理新詞的問題。在結合機器學習理論的趨勢下,中 文分詞技術也趨向使用機器學習的方式來開發分詞模組及工具,目前常見的方法 包括使用支援向量機(Support Vector Machine, SVM)(Asahara et al., 2005)、最 大熵(Maximum Entropy, ME)(Xue, 2003),以及採用條件隨機域(Conditional Random Fields, CRFs)(Peng, Feng & McCallum, 2004)等方式。前述相關研究證 實使用機器學習方式所開發的分詞系統,可達到更佳的分詞準確性。以CRFs 方 式為例,它將中文分詞視為一種序列標記的任務,藉由訓練資料以及所給予的各 種特徵(features),先行訓練其模組。此統計模型公式簡述如下:

����� � 1

��� �� � ������� �� �� ��

���

其中,�是正規化因子(normalization factor),������� �� �� ��是設定的各 種特徵函數,�則是各個特徵函數的權重值(weight),在訓練過程中,系統將 會取得最佳的權重,以作為後續應用時的預設權重值。而後在應用時,透過訓練 是設定的各 種特徵函數,

9

參、研究方法

一、巨量資料之詞彙探勘

(一)文本關鍵詞組探勘

本研究嘗試開發並建置關鍵詞自動擷取系統,以取得文本關鍵詞彙,供後 續視覺化關鍵詞彙形成的網絡之用。該系統能綜合考量各詞語於目標文本中出現 之詞頻、判別是否屬於專業術語,以及各詞語之間的關聯性等,可作為詞彙關鍵 性評估之依據。茲將方法列述如下:

中文分詞與詞性之標注為處理中文語料過程中最基礎,也是最重要的步驟 之一。傳統中文分詞主要是利用辭典,以及人工撰寫之構詞規則進行分詞處理。

然而,構詞規則需透過專家撰寫,過程繁複,並可能存在人為之矛盾、衝突的情 形。至於規則式斷詞的缺點,則在於過度依賴內建詞典的品質,尤其是參考詞典 收錄的詞條數量,對於文本中出現的新詞彙(未知詞),自動分詞系統處理起來 能力將較為不足,無法有效處理新詞的問題。在結合機器學習理論的趨勢下,中 文分詞技術也趨向使用機器學習的方式來開發分詞模組及工具,目前常見的方法 包括使用支援向量機(Support Vector Machine, SVM)(Asahara et al., 2005)、最 大熵(Maximum Entropy, ME)(Xue, 2003),以及採用條件隨機域(Conditional Random Fields, CRFs)(Peng, Feng & McCallum, 2004)等方式。前述相關研究證 實使用機器學習方式所開發的分詞系統,可達到更佳的分詞準確性。以CRFs 方 式為例,它將中文分詞視為一種序列標記的任務,藉由訓練資料以及所給予的各 種特徵(features),先行訓練其模組。此統計模型公式簡述如下:

����� � 1

��� �� � ������� �� �� ��

���

其中,�是正規化因子(normalization factor),������� �� �� ��是設定的各 種特徵函數,�則是各個特徵函數的權重值(weight),在訓練過程中,系統將 會取得最佳的權重,以作為後續應用時的預設權重值。而後在應用時,透過訓練

則是各個特徵函數的權重值(weight)。在訓練過程中,系統將會 取得最佳的權重,以作為後續應用時的預設權重值。而後在應用時,透過訓練好 之模組,可以替每一個字進行詞首、詞間、詞尾或單字詞等標記,以方便後續將 一段中文文字分割成適當的詞組。

相較於傳統以辭典比對法所開發之分詞工具,此種以機器學習的方式,其優 點在於可透過訓練資料,幫助系統習得分詞之概念,例如訓練資料中有「壓力」、

「助力」等詞彙,表示「力」字常可為詞彙的結尾字。即使訓練資料中沒有「阻力」

一詞,機器學習型分詞系統,仍然有機會將「阻力」成功辨識並分詞完成,因此 對於未知詞(意指訓練資料未出現的詞彙),仍可達到較理想的分詞效果。在本 研究欲建置關鍵詞自動擷取系統的訓練階段,即採用條件隨機域方式,參酌中央 研究院平衡語料庫,並嘗試結合現有重要術語庫資訊,如國家教育研究院建置的 雙語詞彙、學術名詞暨辭書資訊網(http://terms.naer.edu.tw/)等,以提升分詞系統 處理文本新詞彙的處理能力,增強對於術語詞彙的辨識功能。分析系統流程圖參 見圖1。

圖 1 本研究關鍵詞組探勘流程圖

(10)

單一文本雖可透過句法剖析獲得詞語之間的基本關係(如主詞、受詞等),

但對於詞彙之間的關聯性強度標示則往往付之闕如。為解決此一問題,本研究透 過大量的外部資訊,如新聞文本等,試圖藉由豐富的文本資訊,統計各詞彙之間 的相關度,以訓練出一套詞彙相關度分析模組。當訓練完成並建立中文分詞模組 及相關度分析模組後,於實際應用執行階段,系統對每一篇欲進行分析的文本,

首先會透過中文分詞模組將原始文本進行分詞處理(參見圖2),於分詞完成後,

文本所包含的各個詞彙進一步再透過詞頻(較低頻者不採計),以及相關度分析 模組,探勘出各個符合相關程度條件需求設定的關鍵詞組,供後續視覺化繪製詞 彙網絡圖之用。

圖 2 中文分詞模組之文本分詞示例圖

茲以康軒版本國中《自然與生活科技》教科書之部分內容為例,說明關鍵詞 擷取之概念:

... 當地表受到板塊運動、火山爆發或是隕石撞擊等影響,可能使地層無法 承受巨大的力量而發生斷裂或錯動,引起大量能量的突然釋放並產生波動,

當它傳送到地表時,所引起的地層振動即為地震。全球大多數的地震發生 在板塊交界處,例如臺灣位在歐亞板塊和菲律賓海板塊的交界處,與日本、

菲律賓、印尼等同樣處於環太平洋地震帶上,是地震十分頻繁的地區。…

(11)

以巨量資料探勘氣候變遷主題詞彙網絡應用於教與學之探究

彭致翎 吳鑑城 劉君毅 103

在透過國家教育研究院中文分詞系統處理之後,可得以下分詞結果:

……當/ 地表 / 受到 / 板塊運動 /、/ 火山爆發 / 或是 / 隕石 / 撞擊 / 等 / 影響 /,/ 可能 / 使 / 地層 / 無法 / 承受 / 巨大 / 的 / 力量 / 而 / 發生 / 斷裂 / 或 / 錯 動/,/ 引起 / 大量 / 能量 / 的 / 突然 / 釋放 / 並 / 產生 / 波動 /,/ 當 / 它 / 傳送 到/ 地表 / 時 /,/ 所 / 引起 / 的 / 地層 / 振動 / 即為 / 地震 /。/ 全球 / 大多數 / 的/ 地震 / 發生 / 在 / 板塊 / 交界處 /,/ 例如 / 臺灣 / 位 / 在 / 歐亞板塊 / 和 / 菲律賓海板塊/ 的 / 交界處 /,/ 與 / 日本 /、/ 菲律賓 /、/ 印尼 / 等 / 同樣 / 處 於/ 環太平洋地震帶 / 上 /,/ 是 / 地震 / 十分 / 頻繁 / 的 / 地區 /。

從分詞結果發現此段文本中,「地震」、「板塊」、「地表」屬於較高頻的詞彙。

同時,「地表」、「板塊運動」、「火山爆發、「錯動」、「波動」、「歐亞板塊」、

「菲律賓海板塊」等許多術語詞彙皆已收錄於國家教育研究院雙語詞彙、學術名 詞暨辭書資訊網。因此,系統藉由參考專業術語資料庫並結合統計分析方法,不 僅可運用已知的重要詞彙資訊進行詞彙篩選外,併同詞彙關連性分析,藉由檢視 已收錄的重要詞彙之高相關度線索,也可發現出潛藏(尚未被收錄)之術語詞彙,

進而提供詞彙收錄建議。再者,本研究除了利用關鍵詞自動擷取系統外,為求嚴 謹,也續請專家學者、教師協助標記文本關鍵詞,以及參考教科書既有之索引,

共同進行三角驗證,以確認自動關鍵詞擷取系統之效能。

(二)關鍵詞彙檢索篩選

詞頻統計是分析的起點,透過「氣候變遷」相關詞彙出現頻率的統計,可 探究語料詞彙分布情形,以此判斷具有意義的重要詞彙群。本研究對於「氣候變 遷」相關詞彙群擇定之根據,參考自五個國外具有公信力機構所定義的氣候變遷 詞彙資料庫(climate change glossary),包括:英國廣播公司新聞(BBC NEWS)

(BBC, 2014)、聯合國氣候變遷綱要公約(United Nations Framework Convention on Climate Change)(UNFCCC, 2016)、 美 國 國 家 環 境 保 護 局(United States Environmental Protection Agency)(EPA, 2016)、世界自然基金會(World Wide Fund)(WWF, 2016)、美國農業營銷資源中心(Agricultural Marketing Resource Center)(AgMRC, 2016)(參見表 1)。

(12)

表 1 國外有關氣候變遷詞彙資料庫

資料庫名稱 建置之機構

Climate change glossary British Broadcasting Corporation (BBC)

Glossary of climate change acronyms United Nations Framework Convention on Climate Change (UNFCCC)

Glossary of climate change terms US Environmental Protection Agency (EPA) Glossary of common climate change terms World Wildlife Fund (WWF)

Glossary of global warming and climate change

terms Agricultural Marketing Resource Center (AgMRC) 資料來源:本研究整理。

(三)關鍵詞彙萃取

匯集上述資料庫氣候變遷重要詞彙,並刪除重複詞後,取得574 個詞彙,而 統計包含2 個資料庫來源以上均收錄的詞彙計 121 個;繼之將這些詞彙與國家教 育研究院雙語詞彙、學術名詞暨辭書資訊網參照比對收錄/未收錄之術語,並請2 位國家教育研究院環境科學領域學術名詞審譯委員校正審譯。結果發現諸如海洋 酸化、生質燃料等23 個詞彙未收錄於國家教育研究院術語資料庫。另外,考量中 學教育階段學習目標,本研究將審譯後之121 個名詞,再由 3 位課程教學、術語 背景之專家學者及2 位高中自然科學領域資深教師(均具任教 20 年以上教學經驗)

從中挑選,萃取56 個重要關鍵詞彙。再進一步,研究者繼續透過線上及紙本問卷 調查臺北市、新北市中學地理、地球科學教師們的意見,以瞭解教師眼中的氣候 變遷關鍵詞彙狀態為何。經扣除無效問卷後,取得66 名中學教師的看法。

二、建置詞彙觀測系統及繪製詞彙網絡圖

(一)相關詞彙觀測系統建置

本研究之新聞語料來源來取自中國時報和聯合報,前者為1999 至 2014 年計 240 萬則新聞,後者為 2006 至 2015 年計 142 萬則,合計 382 萬則。先經國家教育 研究院中文分詞系統處理,以得到分詞後的資訊,共得約11 億 5,700 萬詞,該分 詞後的資訊即為建置之新聞語料庫。繼之有關詞彙關聯度分析模組,本研究採用 Dice 係數(dice coefficient)(Sørensen, 1948)估算法,計算公式如下所示:

(13)

以巨量資料探勘氣候變遷主題詞彙網絡應用於教與學之探究

彭致翎 吳鑑城 劉君毅 105

2 * n(x,y) nx + ny

Dice (x,y) =

Dice 係數可用來計算兩樣本詞 x 和 y 的相關度,算法以兩倍之兩樣本詞一起 出現的頻率n (x, y) 除以樣本詞 x 出現之次數和樣本詞 y 出現之次數的總和,至於 兩樣本詞共現頻率的定義是兩樣本詞出現之距離不超過前後5 個詞,也就是 x 樣 本詞前後5 個詞之內若出現 y 樣本詞,則計為共同出現 1 次。以「全球暖化」為例,

在已建置之「相關詞彙觀測系統」中輸入此目標詞彙,即可得出在新聞語料中,

目標詞彙與其他相關詞彙的相關度數值。如全球暖化和氣候變遷的共現頻率得出 結果為435 次,相關度約 0.085,全球暖化和二氧化碳的相關度約為 0.064,全球 暖化和溫室氣體的相關度則約為0.046…等,詳如圖 3 所示。

(二

軟體

(S 用其 並取 之分 訊,

如圖

二)詞彙網 在得出不 體工具 Pat Schvaneveld 其網絡圖繪 取得目標詞 分數來源,而

,即可製圖 圖4 所示。

圖3 目標詞

網絡圖繪製 不同詞彙間

thfinder。P dt, 1990; So 繪製功能中的 詞彙之高相關 而其他參數 圖。以「全球

彙「全球暖 資料來源

兩兩相關度 Pathfinder 為 oftware for P 的PathFinde 關詞彙及其 數皆使用系統

球暖化」為

15

暖化」與其 源:本研究

度係數值之 為 Schvane Pathfinder N er 類型,首 其相關度,並 統本身之預 為例,透過

其他相關詞之 究整理。

之後,再將數 eveldt 研究

Network An 首先將自詞彙 並以此相關度 預設值。開啟

Pathfinder

之相關度數

數值資料輸 究團隊所開

nalysis, 201 彙相關度資 度作為Path 啟軟體介面

繪製得出之 數值

輸入視覺化表 發之開放軟 16)。本研究 資料庫中,查 hFinder 構圖 面輸入指定的 之詞彙網絡

表徵 軟體 究使 查詢 圖時 的資 絡圖,

圖 3 目標詞彙「全球暖化」與其他相關詞之相關度數值

(二)詞彙網絡圖繪製

在得出不同詞彙間兩兩相關度係數值之後,再將數值資料輸入視覺化表徵軟 體工具Pathfinder。Pathfinder 為 Schvaneveldt 研究團隊所開發之開放軟體(Software for Pathfinder Network Analysis)。本研究使用其網絡圖繪製功能中的 PathFinder 類型,首先將自詞彙相關度資料庫中,查詢並取得目標詞彙之高相關詞彙及其相 關度,並以此相關度作為PathFinder 構圖時之分數來源,而其他參數皆使用系統

(14)

本身之預設值。開啟軟體介面輸入指定的資訊,即可製圖。以「全球暖化」為例,

透過Pathfinder 繪製得出之詞彙網絡圖,如圖 4 所示。

氣體

溫室效應

二氧化碳 全球暖化 甲烷

大氣

臭氧層

自行車 電動車

綠建築 議定書

能源稅 排放量

暖化

戴奧辛

締約國 汙染物 變頻

冷氣 空調

燈泡 照明

綠色 環保

家電 標章

用電 電費 省電

發電

燃煤 天然氣

核四

濃度 上升

廢棄

排放

減排 低碳

減量 削減

生效

公約 氣候 調適

糧食 能源

核能 石油

核電 節能

溫室氣體

哥本哈根

氣候變遷 極端氣候

氮氧化物 全球氣候 海平面上升 第三世界

全球氣候變遷

科學原理

聯合國 氣候變化綱要公約

哥本哈根會議 溫室氣體排放 已開發國家 開發中國家

京都議定書 再生能源

電力

太陽能 風力

氣候變化

圖 4 全球暖化詞彙網絡圖

三、詞彙網絡圖之教學評估

(一)教師訪談

本研究將上述問卷調查所得氣候變遷關鍵詞彙依序列之,再經與3 位中學自

然學科領域資深教師討論後,選出4 個現階段較具教學參考意義的目標關鍵詞彙,

分別為「全球暖化」、「聖嬰南方振盪」、「溫室效應」、「碳足跡」。其次,

將目標詞彙輸入本研究開發之相關詞彙觀測系統,各得出相關詞彙間之相關度數

值,繼續經視覺化處理得到4 個目標詞彙的詞彙網絡圖。為檢核詞彙網絡圖效度,

本研究再請6 名中學地球科學、地理科教師,進行網絡詞彙雜訊之校正,並訪談

其對詞彙網絡應用於教學之可行性,受訪教師基本資料如表2。訪談步驟皆先取得

受訪者同意後進行錄音訪談,訪談結束後並將錄音檔轉錄成逐字稿,以利歸納分 析。資料分析結果亦均請參與人員重複檢核,以確認該分類及段落能忠實呈現受 訪者本意。

(15)

以巨量資料探勘氣候變遷主題詞彙網絡應用於教與學之探究

彭致翎 吳鑑城 劉君毅 107

表 2 受訪教師基本資料

代號 性別 學科背景 教學年資

A 地理 7 年

B 地科 19 年

C 地理 5 年

D 科教 24 年

E 地科 23 年

F 地理 20 年

資料來源:本研究整理。

(二)學生施測訪談

本研究另探析了高中學生對於詞彙網絡圖的意見。為了解不同先備知識學生 對於詞彙網絡看法之差異,研究團隊先設計氣候變遷知識測驗檢視學生之先備知 識。該測驗包括二部分,第一部分為25 題選擇題試卷,主要測驗偏重記憶性的知 識,內容涵括全球暖化、聖嬰現象、溫室效應及碳足跡等主題概念,該試題請4 位學者專家進行試題檢核,提供意見據以修正試題,建立專家效度,另選取新北 市30 名高二學生進行預試,內在一致性 Cronbach’s α 值為 .804,顯示試卷具研 究信度。測驗之第二部分詞彙網絡理解測驗,共計3 題論述題,測驗偏重詮釋性 的知識。第1 題請學生就研究者提供之全球暖化或聖嬰現象之詞彙網絡圖,撰寫 150 ~ 200 字短文描述各詞彙間之關係;第 2 題先提供學生閱讀全球暖化或聖嬰現 象之科普文章,閱畢後再將文章中曾提及之重要詞彙標示於詞彙網絡圖,若網絡 圖上沒有該詞彙則可自行增添並劃記連結至相關詞彙;第3 題則請學生再次檢閱 於第1 題所寫之短文,並比較列出前後修正差異之處。本詞彙網絡理解測驗亦抽 取4 名高二學生進行預試,並請 2 位學者教師依據預試結果修正試題文字內容。

本研究正式施測受試對象為臺北市及新北市各一所高中共120 名高二學生,

有效樣本為115 位,依據先備知識測驗結果進行 PR 值排序,以 PR 值 70 以上作 為高理解群,PR 值 30 以下作為低理解群,將二個群組分別進行叢集抽樣(cluster sampling),每群以 PR 值 5 為級距,各個級距隨機選取 1 位學生,例如 PR70-74 隨機選取1 位學生,PR75-79 隨機選取 1 位學生,餘此類推,因此高理解群可選取 出6 位學生,低理解群選取 6 位學生,共 12 位學生進行半結構式訪談,以進一步 探知詞彙網絡圖對學生在學習與理解方面相關問題,作為教學應用之可行性評估。

(16)

肆、研究結果

一、教師眼中的氣候變遷關鍵詞彙

本研究將國內外詞彙資料庫及經學者專家篩選過後的氣候變遷相關詞彙,透 過問卷調查,瞭解臺北市、新北市中學教師眼中對於氣候變遷主題的關鍵詞彙為 何,並請其依重要性加以排序。在扣除無效問卷後,得出中學教師66 名的看法。

中學教師認為氣候變遷最重要的前10 個關鍵詞彙,依序為溫室效應(greenhouse effect)、全球暖化(global warming)、溫室氣體(greenhouse gas)、聖嬰南方 振盪(El Niño Southern Oscillation, ENSO)、生物多樣性(biodiversity)、碳足跡

(carbon footprint)、京都議定書(Kyoto Protocol)、碳循環(carbon cycle)、懸 浮微粒(particulate matter, PM)、化石燃料(fossil fuel)與臭氧層(ozone layer)

(後二者排序相同)。本研究為利於詞彙網絡圖之呈現能更聚焦及深入探討,從 上述關鍵詞彙中擇取了若干個重要詞彙,如全球暖化、聖嬰南方振盪等,分別據 以進行網絡圖之繪製探討。

二、詞彙網絡圖作為教與學輔助工具

(一)詞彙網絡圖的教學應用

本研究以半結構式訪談6 名中學地球科學及地理教師,訪問他們認為詞彙網 絡圖應用於課堂教學和學習之可行性如何?半結構訪談大綱包含:1. 詞彙網絡圖 之優點;2. 詞彙網絡圖之缺點/限制;3. 詞彙網絡圖在教師教學的應用;4. 詞彙 網絡圖在學生學習的應用;5. 對詞彙網絡系統建置的回饋和建議。茲將訪談結果 及發現綜合整理,對應研究目的列述如次:

1. 以巨量資料探勘的詞彙網絡圖於教學應用具可行性

根據受訪教師表示,詞彙網絡圖具客觀呈現現實情境脈絡的特色,因取材自 生活中的新聞語料,超越傳統課本內容的限制,可以幫助跳脫個人既有慣性思考、

訓練思維,具教學創新應用之可行性。

像心智圖,有統整,與其他科目有關聯,例如:化石燃料、溫室效應…,

能訓練跨科及跨領域能力(受訪教師A、E)。

(17)

以巨量資料探勘氣候變遷主題詞彙網絡應用於教與學之探究

彭致翎 吳鑑城 劉君毅 109

優點是它很客觀、完全是數據跑出來的,初看起來好像沒有那麼相關,

但可以去思考詞彙為什麼相關的原因,可以發現一些過去我們沒有注意 到的。老師往往會將課本內容很熟練地傳授給學生,但課本是某一群人 寫出來的,受到課綱思維脈絡的限制。故它其實是一個突破點,讓我們 可以去反思(受訪教師B)。

因為是用新聞關鍵字去比對出來的,可以看到很多不一樣的東西,確實 是跳脫一般老師的思考。老師教學過了5、6 年,甚至更久,思考很容易 跟著課本走,這可以幫助我們跳脫思考(受訪教師C)。

老師教學時可以根據網絡圖找出詞彙關聯性、重要性,可以知道那個是 比較重要、需要強調的,關聯性高的可能就是學生更應該去了解的(受 訪教師A、D、E)。

2. 詞彙網絡圖有助於拓展教師教學視野

根據新聞語料繪製之詞彙網絡圖,可能呈現出與科學知識網絡不一樣的風貌,

除了有助師生跳脫傳統思維框架,也可提供批判反思的空間,藉由不同的視野促 進探究科學新聞內涵的機會。

它的價值在於是一個創意的發想,可以是一個跳脫過去思維脈絡,只是 這個思維脈絡不見得是正確的,使用新聞詞彙會有些偏頗。優點則是跳 脫傳統專業的想法,是一個有趣的開端(受訪教師D)。

網絡圖在教學上是較適合批判省思的部分可讓學生去思考為什麼這些詞 彙會在一起,發生了什麼事情,探討這些關鍵字背後的關係。以教學來 說,不能以它作為主軸來教學,而是一個輔助性引導學習動機的工具(受 訪教師B)。

3. 詞彙網絡圖之運用需透過教師引導輔助教學

詞彙網絡圖除了運用在教學之外,受訪教師對於如何協助學生自學,則有不

(18)

同的看法。若能賦予詞彙連結關係之意義,輔以教師引導探討,網絡圖將可促進 有效學習。

如果能夠賦予詞彙連結線的意義,學生就能夠自學。線條的意義,不管 是線段或是箭頭,不論是教師自己提供或學生自己處理,其實都可以是 提供學習的助力(受訪教師A)。

在需要老師引導討論的前題之下,詞彙網絡圖不適合學生自己看了然後 去學,其中有太多的不確定性、太多的問題,但是它可以做為師生之間 自我檢視的平台工具,若已理解這些詞彙擺在一起的原因,對此議題知 道的會比想像的還要多(受訪教師B)。

4. 詞彙網絡圖需考量使用條件

關於詞彙網絡圖之使用限制,目前仍存在需考量語料來源不同之判別、較難 呈現概念層次等狀況,故教學應用時仍須考量學習者先備知識、釐清網絡圖雜訊,

教師亦宜適當導引提供鷹架輔助學習。

要有先備知識,單看網絡圖無法瞭解該主題全貌。雜訊太多,新聞語料 因會重複播報,導致語料出現率大增,也有不當的詞彙連結,若使用教 科書會有較高的正確率(受訪教師F)。

最主要的限制就是它主要來自新聞,有一些連結,比如排放,二氧化碳 和汙水,在學術上是兩個不同的排放,但在中文上,汙水可以排放,二 氧化碳也可以排放,到最後連結了一個廢水和二氧化碳是沒有任何相關 的。加上臺灣科學新聞常常是一篇同時摻進兩、三個問題,因為它的篇 幅很小,可能只有一點相關,記者把它們塞在一起呈現,所以才會出現 有一些的關聯,會讓有相關背景的人覺得很意外(受訪教師B)。

若資料庫正確,網絡呈現會是有脈絡的,容易理解一個概念。相較心智 圖不同之處在於,心智圖是讀者看過文章後,用自己的概念畫出;而詞

(19)

以巨量資料探勘氣候變遷主題詞彙網絡應用於教與學之探究

彭致翎 吳鑑城 劉君毅 111

彙網絡圖是提供讀者一個網絡,可以了解的議題可能會更多更廣,也許 會變得天馬行空,若變得天馬行空,教師需要收斂歸納(受訪教師E)。

學生如果在學習詞彙網絡圖時沒有一個主題性、相關聯性,對他們來說 就只是一張圖而已,學生使用網絡圖學習會有所限制。若能夠讓學生更 清楚地知道,或讓架構非常地有層次,比較能夠幫助學生,但這個部分 其實蠻難的,它的東西很多,如何去把它的層次分出來(受訪教師C)。

因為文本是新聞資料庫,新聞用詞的正確度可能不如教科書,所以相關 詞,可能會有誤用或偏頗,如果讓學生自己閱讀這張網絡圖,可能會有 一些比較不正確的想法,所以這張圖要有老師來引導會比較好(受訪教 師D)。

5. 詞彙網絡圖未來發展面向

對關鍵詞彙擷取及詞彙網絡系統,建議可於圖中透過線條粗細等繪製技巧,

來呈現概念層次、主題分布、相關度等意義,增進網絡圖之教學應用效益。

如果線條可以有粗細,可以看出相關性的高低,線的粗細有一個對照、

圖例,線較粗相關性較高,也許不用太多種,兩種到三種差不多就是極 限,線條有粗細能讓視覺化的效果更好(受訪教師B)。

因為我們看到的這一串其實是取決於我們決定相關度的高低,我們設的 相關度不一樣,出來的結果也會不一樣,要如何去判定多少相關度,難 以去控制。可能相關度高一點的線條要粗一點,相關度比較低的線條要 細一點,可是這又牽涉設定相關度的間距。這張圖不一定要告訴我們怎 樣較高怎樣較低,至少有個高低之分,可能會更一目了然(受訪教師 D)。

(二)詞彙網絡圖的學習應用

本研究根據對選取自臺北市及新北市12 位經過測驗的高中學生進行半結構式

(20)

訪談,以瞭解他們對詞彙網絡圖之理解及學習的相關問題。訪談題綱包含:1. 你 會先關注網絡圖的什麼地方?為什麼?2. 如何根據網絡圖撰寫短文?為什麼?

3. 從網絡圖中,你是如何找出哪些是關鍵詞彙? 4. 網絡圖讓你對主題的理解有哪 些幫助?5. 在學習過程中,你覺得網絡圖在學習前、中、後,哪個階段最有幫助?

6. 你覺得可以從網絡圖中瞭解它試圖要告訴你的是什麼?是否有理解的困難及其 原因。所收集之結果資料中,將高理解群學生代號以H 呈現,低理解群學生代號 以L 呈現。對所有受試學生而言,這無非是一項新鮮的學習體驗。茲將訪談結果 重點摘述如次:

1. 識讀理解路徑:觀看詞彙網絡與既有概念或閱讀習慣之連結

學生如何開始關注詞彙網絡圖脈絡?受訪學生多表示,會先從主題位置,節 點連結最多的地方開始往外延展;有些學生會從熟悉的詞彙,或較能掌握的內容 脈絡開始;亦有受訪者表示是從閱讀習慣的方向,從右方往左方開始。例如:

先找關鍵字,中心點(受訪學生H4)。

我一開始是先看連接的支點最多的,最主要、分出去分布最多的,我覺 得那應該是比較重要的地方(受訪學生H6)。

我會先從中間去找它的關鍵主題在什麼位置,然後從主題往外看,或找 一些較特殊的詞彙,可能是最近有讀到的,找到一些以前已經知道的東 西(受訪學生L3)。

先看中央的那個詞,就是在網絡圖比較中間的那些詞。如果是和有接觸、

看過的連在一起,就會想和看過有關的東西是有怎麼樣的關係(受訪學 生L6)。

通常都是由右邊先看,所以我一開始都先注意到右邊,後來有時間的壓 力,所以左邊就關注比較少,右邊看了就開始動筆了。這邊先看到,想 法就在這裡了,雖然這邊都是有關聯的,可是想法會比較專注(受訪學 生L1)。

(21)

以巨量資料探勘氣候變遷主題詞彙網絡應用於教與學之探究

彭致翎 吳鑑城 劉君毅 113

2. 詞彙網絡連結:使用網絡圖之策略

學生如何根據網絡圖撰寫短文?多數人是選擇熟悉已知,或貼近生活的詞彙 開始串連;若碰到不會的詞彙會略過,或是不知如何下筆。亦有受訪者表示,隨 機挑選詞彙,再想方法將這些詞彙串連起來。例如:

寫短文一開始我會先選擇海域這個區塊,後面再來補充聖嬰現象,就想 到海域可以連接到我們熟悉的太平洋,然後太平洋就可以講到我們熟悉 的事物,比較貼近我們生活的事物,像一些漁民或是珊瑚礁島之類的,

就盡量有什麼詞就用進去,再加上一些我的想法(受訪學生H6)。

先看它旁邊的,想辦法把它串起來。看背景是否有所不同,有些地方我 就不知道是什麼意思了(受訪學生L4)。

先看那個有印象比較深的開始寫,然後延伸有教過的就寫,沒教過的就 略過,盡量去想恢復記憶。要去想要怎麼把它連在一起有關係,看到不 會的詞彙會比較緊張,不知道怎麼下筆(受訪學生L6)。

我其實是隨便挑幾個,想著一個就弄一個,然後想辦法把它串起來(受 訪學生L2)。

3. 關鍵詞檢索:運用網絡圖尋找關鍵詞彙之途徑

如何從網絡圖中,找出哪些是關鍵詞彙?大多數受訪者表示他們從網絡的中 間詞彙、連結最多的節點來查找;也有受訪者表示,是從自己先備知識中去尋找 關鍵詞彙。例如:

像整個網絡圖中間,和越多東西有關聯的就是那一個區塊的重點,就是 有十個詞,有一個詞彙和另外九個都有關聯,根據自己的經驗,它就是 那一塊的重點(受訪學生H4)。

我會比較屬於是那種先有想法,再去想我要怎麼從這些網絡圖,找出我 要的相近字。像我們在課堂上比較常聽的,通常會比較重要,代表老師

(22)

較常提到,我們較常聽到,我就覺得那樣的字比較重要一點,比較有印 象的。遠近感覺比較沒那麼有關係,關聯性如果是連接這個詞彙再連出 去的,那這詞彙和另一個詞彙之間關係就是間接的,沒有直接連結的來 得重要(受訪學生H6)。

4. 訊息定位:詞彙網絡圖對於學習之助益

關於詞彙網絡圖是否有助學生對學習主題的理解,受訪者表示網絡呈現多元 面向,有助於延伸理解、拓展思考脈絡及複習,惟條件可能取決於先備知識的是 否俱足?例如:

網絡圖提供協助找尋資料。如果有網絡圖,找到一個地方「臨界點」是 什麼,才開始查。不然一開始的時候很容易沒有方向。所以需提供引導,

如果是一個全新的東西,就一定要跟著脈絡走(受訪學生L1)。

一個接一個,你就可以去想它會造成什麼影響。如果自己具備背景知識 不太夠,沒有很清楚,像我自己就有很多個看不太懂(受訪學生L1、

L6)。

因為一些詞是沒學過的,或是有學過但已經忘記的,就可以再複習一次

(受訪學生L6)。

它就是用關鍵字去連結的(受訪學生H2);它們之間連線的關聯、架構 都還蠻清楚的(受訪學生H6)。

可以從比較中心的東西延伸出去,可以連到很多東西(受訪學生L6);

資訊充足(受訪學生H3)。

不知道聖嬰現象會連結這麼多,看到的時候還蠻嚇到,就是自然現象可 能影響到這麼多種涵蓋的範圍(受訪學生H5)。

5. 學習歷程:詞彙網絡圖使用之時機

關於詞彙網絡圖在學習前、中、後各階段之助益,有受訪者認為詞彙網絡圖

(23)

以巨量資料探勘氣候變遷主題詞彙網絡應用於教與學之探究

彭致翎 吳鑑城 劉君毅 115

有助於學習後複習;有些學生則指出對學習前的引發動機、引領學習等較有幫助;

亦有受訪學生認為在學習中,可以透過瞭解一半後,再透過延伸或老師協助學習。

例如:

學習之後,因為它內容比較細,所以會覺得在學習之後要有更深入的學 習(受訪學生L3)。學完之後,因為已經了解概念,再試試看有那個關 聯性,自己就能整理一下這些知識。我覺得可以用來複習,因為我們學 到的東西像課本一樣還蠻亂的,列出簡單明瞭的圖形,比較好理解(受 訪學生H5)。

如果看過一些東西後,這個網絡圖在腦子裡就已經是有的,所以如果再 看一次,還是會讓它變得更清楚,可是其實也跟原本差不多。學習後,

因為全部學完之後,再看那些詞,會聯想之前你學過的東西,然後就可 以整個複習,就可以不用看課本。你看一個關鍵詞,你就想到它其實是 在講什麼(受訪學生H4)。

學習後複習,因為這些詞彙都知道只是不常用到,現在應該要學著使用 它們(受訪學生L6)。

我覺得是學習前,因為像我在讀歷史的時候,我會先大概看一下每個篇 章時間順序,可能就是比較重要的再去細看它的過程,就是會去注意大 概會提到什麼東西(受訪學生H3)。

學習前,可以引發學習的動機。可以先大致了解,再看文章較有幫助。

與文章相比文章的解釋比較多,會比較知道聖嬰現象。學習前較有幫助,

學習後應該是要自己畫會較有幫助(受訪學生L4)。

我覺得是學習過程中間,因為沒什麼預習,老師上課蠻快的。學習中,

老師用這種圖講解,然後連結記憶。學習後可以再複習一次(受訪學生 H2)。

(24)

學習中,大概了解一半,一半就可以自己慢慢延伸,老師可以幫助補充

(受訪學生L5)。

6. 學習監控:對詞彙網絡圖之覺察與建議

在透過詞彙網絡圖進行的教學活動中,學生一邊看圖一邊與自己的既有概念 比對,透過研究者對學生有關詞彙網絡圖修正意見的提問中,可以瞭解他們在認 知、覺察、比對後,自己學習歷程的心得,及對於此知識區塊的理解。學生提出 包括可再擷取區塊主題學習、補充詞彙註解、再減少雜訊等建議。例如:

如果直接看線條會比較凌亂一點,可以再集中一點,變成幾個區塊。有 一些字是沒有看過的,第一眼沒辦法理解它們的關係(受訪學生H6)。

可能針對普通大眾學生可能不懂的東西,在旁邊加個註解,讓學生了解 這是什麼意義(受訪學生H2)。

可減少、去掉一些東西,例如冷氣、空調、變頻、電力,或是太簡單的 詞彙(受訪學生H3)。

此外,若將科普文章和詞彙網絡圖對於主題學習理解情形加以比較,受訪者 表示文章和圖示分別具有不同的功能。若以圖文相輔助,可以促進理解及加深學 習印象。例如:

文章可以了解細節或甚至先後順序,可是網絡圖比較是主題下相關聯 性,如果是要整理資料,網絡圖會比較容易一些(受訪學生L3)。

文 章 寫 的 比 較 詳 細。 圖 則 要 自 己 聯 想, 要 依 據 個 人 能 力( 受 訪 學 生 L1);文章較有連續性,網絡圖會跟著脈落走(受訪學生 L5)。

文章字太多,會讓人懶得去看,網絡圖看起來比較輕鬆,大概知道哪個 是重點(受訪學生H3)。

綜上所述,本研究根據教師與學生回饋結果發現,採自巨量資料所建構的詞

(25)

以巨量資料探勘氣候變遷主題詞彙網絡應用於教與學之探究

彭致翎 吳鑑城 劉君毅 117

彙網絡,其特性可歸納為:(1)巨量實徵:詞彙網絡基於客觀語料之依據,且透 過視覺化圖像呈現可一目了然;(2)探索關鍵:讓學生理解詞彙之間的關聯性,

可啟發探索重要詞彙;(3)跨域學習:內容跨越學科知識界線,從學習探究觀點 可窺見詞彙共現可能形成的多重意義;(4)統整詮釋:突破教科書傳統單向脈絡 限制,有利於師生發展出較為統整性的思維;(5)批判反思:提供機會促進探究,

並藉以反思科學新聞資料的內涵。另一方面,研究也發現詞彙網絡夾雜了部分雜 訊,這可能帶有教學上的隱藏意義,教師可善加利用來幫助學生練習覺察與探索。

至於在詞彙探勘的方法上,仍有幾項建議可供後續研究參考:(1)可拓展更多不 同語料來源,例如增加科學文本語料的比較,以擴大知識面向;(2)可嘗試讓網 絡圖更具教學意義,目前繪製網絡圖的線條僅能表示詞彙間的連結,不能推定概 念層次或因果等關係,而線條長短亦不代表關聯強度,未來可賦予線條代表詞彙 間之各種關係;(3)適度釐清雜訊,以增進網絡圖之可讀性;(4)提供鷹架輔助,

彌補學習者先備知識不足問題。

伍、結論與建議

在現今教育強調探究或探索學習的趨勢下,單憑傳統教科書內容,已無法充 分反應因巨量資料所衍生的各類訊息,適時滿足學校課程與教學需求。如何引進 科技輔助,在繁雜的生活情境脈絡中,擷取具有學習意義的資源融入教學,支援 師生教學與學習所需,提升學習效果,其重要性已不言而喻。

本研究採資料探勘技術,以國內兩大新聞媒體之語料就氣候變遷主題進行詞 彙篩檢,配合詞彙資料庫比對、專家檢核、教師問卷等,萃取出氣候變遷關鍵詞 彙群,將詞彙輸入視覺化軟體表徵工具,繪製詞彙網絡圖,並請教師進行詞彙網 絡雜訊之校正後,併同學生紙筆測驗及師生訪談、蒐集回饋資訊等方式,據以分 析詞彙網絡圖在輔助教與學方面之可用性。研究嘗試跨越不同文本媒介,從詞彙 探勘入手,致力描繪較貼近知識原貌、傳達現實世界多元錯雜之知識表徵架構,

為師生開創符合時需的補充教材雛形,所發展出的詞彙網絡圖兼容了生活語言、

文字語料及圖像輪廓之特質,深化詞彙在知識學習上扮演的角色。當教師欲從事 跨領域、跨學科的主題式教學,在其所涉獵內容是新興議題、時事結合,或處於 變化中的事物時,如何幫助學生掌握概念核心與知識範疇、精準窺見事件全貌、

(26)

不偏離社會脈絡,選擇引入合適資源,便成為備課時的重要考量。本研究獲致之 結論與建議如次:

一、迅速處理資訊擷取關鍵重點

如何運用有效率的方法擷取文本中的關鍵詞彙?傳統作法可透過邀集專家,

以人工逐一檢視方式,再透過會議討論審議取得共識決定之,惟此法曠日廢時,

若擴大層面採行恐怕不易。本研究之價值,在於突破查找限制及縮短時效,以計 算語言學方法技術先探,利用機器自動擷取關鍵詞彙,繼之透過專家群、術語資 料庫及教科書索引比對等措施加以多重檢測,以構建工具信效度,此創新方法可 作為關鍵詞彙探勘的開放性工具雛形。

二、透過關鍵詞彙輔助文本理解

本研究突顯學生對詞彙關係之理解在科學學習過程中的重要性,透過重要詞 彙關係以及學生理解議題的研究,探討了學生對科學知識學習的重要關鍵。本研 究發現,透過相關語料建立的詞彙網絡圖具有輔助教學與學習應用之可行性,未 來可進一步深入探究學生對於詞彙網絡理解的情形,及在學習評量方面可供教師 作教學診斷與策略改善的參考。

三、符合素養導向學習趨勢所需

本研究突破以圖表或文字等單一知識表徵傳達科學內涵的傳統途徑,透過詞 彙網絡圖及關鍵詞彙展布知識混合的形式,採集偏屬社會情境脈絡的新聞報導語 料,呈現跨文本、跨領域、跨學科的風貌,符應了新課程綱要所提出的統整學習 精神,因其具有拓展多元知識面向的特點,在強調以素養為導向的新學習趨勢下,

別具教學創新意義。

四、提供教科用書編寫設計參考

本研究探勘所得之關鍵詞彙,可進一步利用將其與教科書詞彙索引進行比對 分析,瞭解其異同。值此倡議素養導向的十二年國民基本教育課程推行之際,如 何帶動與生活情境緊密連結及促進反思、問題解決的學習,建議中小學教科書的 編寫設計,應考量融入重要且關鍵的詞彙概念,而由本研究透過巨量資料探勘所

參考文獻

相關文件

 Human Factor Big-data Research Center – Health Promotion for Sub-health

2 Department of Educational Psychology and Counseling / Institute for Research Excellence in Learning Science, National Taiwan Normal University. Research on embodied cognition

Department of Physics and Taiwan SPIN Research Center, National Changhua University of Education, Changhua, Taiwan. The mixed state is a special phenomenon that the magnetic field

Implications of leader-member exchange theory and research for human resource development research. (1973).Instrumentality theory and equity theory as complementary

Paper presented at an invitational conference sponsored by the National Educational Research Policy and Priorities Board, the Office of Educational Research and Improvement, and

Contact information of NGOs or school services that provide mental health support. News articles/video clips relating to this

• For novice writers, a good strategy is imitation: choose a well-written paper that is of a similar flavor, analyze its organization, and sketch an organization for your results

Potential knowledge management contributions to human performance technology research and practice Educational.. Technology”,Research