本研究使用之軟體為 provalis research 販售的 Wordstat6.1 版。Wordstat 是用 於內容分析與文件探勘的商業套裝軟體,可針對訪談內容、電子郵件、文本文句、
政府文宣、廣告訊息、學術期刊、產品目錄、演講文稿、調查問卷等以英文詞彙 呈現之文件進行文件探勘。Wordstat6.1 的功能眾多,本研究針對使用之功能整理 如下:
1.軟體內建詞典式詞庫,亦可依據使用者的需求建立詞庫以供進行分析。
2.提供自動化詞性校正功能(lemmatization),可將文章中不同時態或複數詞彙還 原,視為同一個詞彙計次。
3.具有排除不欲記次之詞彙的功能(exclution),例如:the、a 等冠詞或 to、for 等 介係詞對分析無幫助甚至會干擾分析之詞彙,可以此功能予以排除。
4.建立複合詞。在建詞庫時將兩詞間以底線「_」連接,系統將會視以底線連接的 詞彙為一個詞,例如:ANOMOLOUS_DATA。
5.建同義詞。有些詞彙同義但異字或敘述的概念相似,若未經處理,軟體辨識時 會將這些詞彙視為不同的字,分析結果將受干擾。Wordstat 可在詞庫建立同義詞 夾,將同義或意義相近的詞彙視為同一個字計頻。例如:本研究的文件集皆來自 科教期刊,文章中所指教師皆為科學教師,故 BEGINNING_TEACHER 與 BEGINNING_SCIENCE_TEACHER 應視為同一個詞彙,研究者將這兩個詞彙置 於 同 一 個 同 義 詞 夾 「 BEGINNING_TEACHER 」 中 , 計 頻 時 兩 個 字 皆 視 為 BEGINNING_TEACHER。
6.設定閾值排除詞彙。因詞頻過少或過多的詞彙對分析幫助不大,進行分析時可 設定適當的閾值予以排除。例如:詞頻過少的詞彙可能無意義,研究者可設定出 現次數不到特定次數的詞彙不予計次;出現次數過多的詞彙對分析幫助不大,研 究者可設定出現頻率超過某百分比的詞彙不予計次。
7.可針對詞彙進行共現分析(Co-occurrence)。
8.可針對詞彙、文件進行相似度分析(similarity analysis),比較詞彙群集或文件間 的相似度。
39
9.可將詞彙或文件分群(clustering)。
10.可將分析結果以多元的方式呈現。例如:數據表格、樹狀圖、2-D 圖像、3-D 圖像。
Wordstat 可輸入的文件檔案種類多元,例如:Word、Rich Text Format (RTF)、
PDF、ASCII 與 Excel 等種類,本研究輸入的檔案類別為 Excel,檔案當中各文獻 有 61 個資訊欄位,各資訊欄位以英文縮寫編碼,其意義與內容舉例如下:
AU:作者,例:Marks, R; Eilks, I。
TI:論文標題,例:Research-based development of a lesson plan on shower gels and musk fragrances following a socio-critical and problem-oriented approach to chemistry teaching。
SO:期刊全名,例:CHEMISTRY EDUCATION RESEARCH AND PRACTICE。
DE:論文關鍵詞,例:socio-critical and problem-oriented chemistry teaching; STS education; shower gels; fragrances。
ID:論文描述詞,例:SCHOOL CHEMICAL EDUCATION; SCIENCE-EDUCATION; SCIENTIFIC LITERACY; POLYCYCLIC MUSKS; WASTE-WATER; ARGUMENTATION; RELEVANCE; REMOVAL; NITRO; HHCB。
AB:論文摘要,約 100-300 個英文字。
C1:作者所屬國家。
CR:參考文獻,例:Aikenhead G., 1994, STS ED INT PERSPECTI。
NR:參考文獻篇數,例:50。
TC:被引用的次數,例:13。
PY:論文出版年,例:2010。
SC:論文所屬領域別,例:Education & Educational Research。
UT:WoK 之論文主鍵,例:WOS:000277702900009。
本研究使用之欄位為 Tl(論文標題)、DE(論文關鍵詞)、ID(論文敘述詞)、AB(論 文摘要),因期刊論文的書寫有一定格式,論文文章的主題與旨趣,會呈現在論文 標題、論文關鍵字、論文敘述詞、論文摘要中,而本研究進行的是主題分析,故 選取這四個欄位資訊進行探查。
Wordstat 內含多種統計與視覺化工具,除了統計數據,Wordstat 還可將針對
40
文字分析的結果以 2-D 或 3-D 圖像呈現,讓使用者清晰地看出分析結果(圖 3.16、
圖 3.17)。本研究以文章為單位進行群集分析,並將群集結果以樹狀圖的方式呈 現,經由適當地切分分析結果,可清楚看出哪些文章屬於同一類別。
圖 3.16 群集結果 2D 視覺化
圖 3.17 群集結果 3D 視覺化
Wordstat 套裝軟體包含了 QDA Miner 以及 SimStat 兩套件,QDA Miner 提 供文件管理與質性分析的功能,SimStat 則可執行量化分析。研究者將 279 筆資
41
料以 Excel 檔案輸入 QDA Miner 進行文件管理,讓資料轉化為 Wardstat 的處理 形式,接著選取 Tl(論文標題)、DE(論文關鍵詞)、ID(論文敘述詞)、AB(論文摘要) 四個欄位,由 SimStat 進行量化的內容分析。
Wordstat 的分析功能仰賴特徵詞庫(dictionary)的建立,若在未建置特徵詞庫 的狀況下進行分析,會計算所有詞彙的出現頻率,其中包含對分析沒有幫助甚至 擾亂分析的詞彙,例如:冠詞 the、a;介係詞 of、for、to;代名詞 that、this、they 等與分析主題無關之字彙,故在分析前,需依分析的目的建立特徵詞庫,而程式 BEGINNING_TEACHER 等詞彙,在 Wordstat 系統中,複合詞的單詞之間需以下 底線「_」連結,系統方能判讀為單一詞彙。
研究者將原始特徵詞共 5787 個,於開啟詞性還原的環境下執行程式,5787
42 ACQUISITION 等無法看出科教相關領域的詞彙。
有些詞彙同義但異字,或研究者認為該不同詞彙所要表達的是類似概念,例 如:Alternative_Framework 與 Misconception 兩特徵詞具有相似概念,可建立同 義詞庫(利用高階的特徵詞合併數個相同意義的特徵詞),將這兩個特徵詞併為同 次時須視為同一詞彙計次。Wordstat 提供了詞性還原(automatic lemmatization)的 功能,開啟詞性還原後,可將單複數與各時態視為同一個詞彙計次,避免分析誤 差。
詞頻分析結果以表格數據呈現(如圖 3.18),接著執行群集分析,群集分析結 果將以樹狀圖的形式呈現(如圖 3.19),研究者設定以文章為單位進行群集,並將 所有文章分為 9 個群集,其中文章數最少的群組含有 5 篇,文章數最多的有 79
43
篇文章。
圖 3.18 詞頻分析結果總表
圖 3.19 以樹狀圖呈現群集結果
為了判斷各群集的論證研究類別,研究者將 9 群資料分別送入 Wordstat 分 析,得到各群使用的特徵詞類別與詞頻,藉由常出現的特徵詞判別各群所屬類別 為何。除了以 Wordstat 跑出之各群組特徵詞判斷各群類別,研究者尚以閱讀各群 組文章的方式,將各群若干文章之內容閱讀後記錄論文內容如:摘要,質性並主
44
觀地判斷各群組的主題為何,以與軟體群集之結果對照,進行類別命名。