研究工具 - 以文件探勘法比較國內外學者在論證相關研究上的差異

本研究使用之軟體為 provalis research 販售的 Wordstat6.1 版。Wordstat 是用於內容分析與文件探勘的商業套裝軟體，可針對訪談內容、電子郵件、文本文句、

政府文宣、廣告訊息、學術期刊、產品目錄、演講文稿、調查問卷等以英文詞彙呈現之文件進行文件探勘。Wordstat6.1 的功能眾多，本研究針對使用之功能整理如下：

1.軟體內建詞典式詞庫，亦可依據使用者的需求建立詞庫以供進行分析。

2.提供自動化詞性校正功能(lemmatization)，可將文章中不同時態或複數詞彙還原，視為同一個詞彙計次。

3.具有排除不欲記次之詞彙的功能(exclution)，例如：the、a 等冠詞或 to、for 等介係詞對分析無幫助甚至會干擾分析之詞彙，可以此功能予以排除。

4.建立複合詞。在建詞庫時將兩詞間以底線「_」連接，系統將會視以底線連接的詞彙為一個詞，例如：ANOMOLOUS_DATA。

5.建同義詞。有些詞彙同義但異字或敘述的概念相似，若未經處理，軟體辨識時會將這些詞彙視為不同的字，分析結果將受干擾。Wordstat 可在詞庫建立同義詞夾，將同義或意義相近的詞彙視為同一個字計頻。例如：本研究的文件集皆來自科教期刊，文章中所指教師皆為科學教師，故 BEGINNING_TEACHER 與 BEGINNING_SCIENCE_TEACHER 應視為同一個詞彙，研究者將這兩個詞彙置於同一個同義詞夾「 BEGINNING_TEACHER 」中，計頻時兩個字皆視為 BEGINNING_TEACHER。

6.設定閾值排除詞彙。因詞頻過少或過多的詞彙對分析幫助不大，進行分析時可設定適當的閾值予以排除。例如：詞頻過少的詞彙可能無意義，研究者可設定出現次數不到特定次數的詞彙不予計次；出現次數過多的詞彙對分析幫助不大，研究者可設定出現頻率超過某百分比的詞彙不予計次。

7.可針對詞彙進行共現分析(Co-occurrence)。

8.可針對詞彙、文件進行相似度分析(similarity analysis)，比較詞彙群集或文件間的相似度。

9.可將詞彙或文件分群(clustering)。

10.可將分析結果以多元的方式呈現。例如：數據表格、樹狀圖、2-D 圖像、3-D 圖像。

Wordstat 可輸入的文件檔案種類多元，例如：Word、Rich Text Format (RTF)、

PDF、ASCII 與 Excel 等種類，本研究輸入的檔案類別為 Excel，檔案當中各文獻有 61 個資訊欄位，各資訊欄位以英文縮寫編碼，其意義與內容舉例如下：

AU：作者，例：Marks, R; Eilks, I。

TI：論文標題，例：Research-based development of a lesson plan on shower gels and musk fragrances following a socio-critical and problem-oriented approach to chemistry teaching。

SO：期刊全名，例：CHEMISTRY EDUCATION RESEARCH AND PRACTICE。

DE：論文關鍵詞，例：socio-critical and problem-oriented chemistry teaching; STS education; shower gels; fragrances。

ID：論文描述詞，例：SCHOOL CHEMICAL EDUCATION; SCIENCE-EDUCATION; SCIENTIFIC LITERACY; POLYCYCLIC MUSKS; WASTE-WATER; ARGUMENTATION; RELEVANCE; REMOVAL; NITRO; HHCB。

AB：論文摘要，約 100-300 個英文字。

C1：作者所屬國家。

CR：參考文獻，例：Aikenhead G., 1994, STS ED INT PERSPECTI。

NR：參考文獻篇數，例：50。

TC：被引用的次數，例：13。

PY：論文出版年，例：2010。

SC：論文所屬領域別，例：Education & Educational Research。

UT：WoK 之論文主鍵，例：WOS:000277702900009。

本研究使用之欄位為 Tl(論文標題)、DE(論文關鍵詞)、ID(論文敘述詞)、AB(論文摘要)，因期刊論文的書寫有一定格式，論文文章的主題與旨趣，會呈現在論文標題、論文關鍵字、論文敘述詞、論文摘要中，而本研究進行的是主題分析，故選取這四個欄位資訊進行探查。

Wordstat 內含多種統計與視覺化工具，除了統計數據，Wordstat 還可將針對

文字分析的結果以 2-D 或 3-D 圖像呈現，讓使用者清晰地看出分析結果(圖 3.16、

圖 3.17)。本研究以文章為單位進行群集分析，並將群集結果以樹狀圖的方式呈現，經由適當地切分分析結果，可清楚看出哪些文章屬於同一類別。

圖 3.16 群集結果 2D 視覺化

圖 3.17 群集結果 3D 視覺化

Wordstat 套裝軟體包含了 QDA Miner 以及 SimStat 兩套件，QDA Miner 提供文件管理與質性分析的功能，SimStat 則可執行量化分析。研究者將 279 筆資

料以 Excel 檔案輸入 QDA Miner 進行文件管理，讓資料轉化為 Wardstat 的處理形式，接著選取 Tl(論文標題)、DE(論文關鍵詞)、ID(論文敘述詞)、AB(論文摘要) 四個欄位，由 SimStat 進行量化的內容分析。

Wordstat 的分析功能仰賴特徵詞庫(dictionary)的建立，若在未建置特徵詞庫的狀況下進行分析，會計算所有詞彙的出現頻率，其中包含對分析沒有幫助甚至擾亂分析的詞彙，例如：冠詞 the、a；介係詞 of、for、to；代名詞 that、this、they 等與分析主題無關之字彙，故在分析前，需依分析的目的建立特徵詞庫，而程式 BEGINNING_TEACHER 等詞彙，在 Wordstat 系統中，複合詞的單詞之間需以下底線「＿」連結，系統方能判讀為單一詞彙。

研究者將原始特徵詞共 5787 個，於開啟詞性還原的環境下執行程式，5787

42 ACQUISITION 等無法看出科教相關領域的詞彙。

有些詞彙同義但異字，或研究者認為該不同詞彙所要表達的是類似概念，例如：Alternative_Framework 與 Misconception 兩特徵詞具有相似概念，可建立同義詞庫(利用高階的特徵詞合併數個相同意義的特徵詞)，將這兩個特徵詞併為同次時須視為同一詞彙計次。Wordstat 提供了詞性還原(automatic lemmatization)的功能，開啟詞性還原後，可將單複數與各時態視為同一個詞彙計次，避免分析誤差。

詞頻分析結果以表格數據呈現(如圖 3.18)，接著執行群集分析，群集分析結果將以樹狀圖的形式呈現(如圖 3.19)，研究者設定以文章為單位進行群集，並將所有文章分為 9 個群集，其中文章數最少的群組含有 5 篇，文章數最多的有 79

篇文章。

圖 3.18 詞頻分析結果總表

圖 3.19 以樹狀圖呈現群集結果

為了判斷各群集的論證研究類別，研究者將 9 群資料分別送入 Wordstat 分析，得到各群使用的特徵詞類別與詞頻，藉由常出現的特徵詞判別各群所屬類別為何。除了以 Wordstat 跑出之各群組特徵詞判斷各群類別，研究者尚以閱讀各群組文章的方式，將各群若干文章之內容閱讀後記錄論文內容如：摘要，質性並主

觀地判斷各群組的主題為何，以與軟體群集之結果對照，進行類別命名。

在文檔中以文件探勘法比較國內外學者在論證相關研究上的差異 (頁 47-53)