第三章 研究方法與設計
第五節 資料分析與處理
本實驗收集的資料有:受試者和館員產生的標籤與排序標籤的結果,以及受 試者的訪談回答所獲得的錄音檔,資料分析上主要是採取敘述統計與統計檢定分 析實驗結果,同時以質性資料作為補充,以使用者的在標記過程中的想法和感受 解釋實驗結果。
一、標籤基本統計量 (一)選用標籤數量
計算 36 位受試者在不同介面裡,平均為每一本書選用的標籤數量,評估不同 介面裡的選用標籤數量。
(二)相異(distinct)標籤個數
計算不同介面裡,有被受試者選用的標籤個數(不包含重複標籤),評估不同介 面裡的相異標籤個數。
(三)單次選用之標籤個數與比例
計算在不同介面裡,只被一位受試者選用且僅出現於單一書籍的標籤,評估不 同介面裡的單次選用之標籤個數與比例。
二、選用標籤被選用次數之分佈狀況
本研究由下列測量項目和指標評估不同介面裡標籤被選用次數之分佈狀況上 的差異,探討標籤字體大小是否會影響受試者的標記行為。
(一)以 Gini 係數評估標籤被選用次數之分佈狀況
本研究運用 Gini 係數測量在不同介面中,標籤被選用次數之分佈狀況,原先 Gini 係數是用來衡量「所得分配平均程度」,是計算洛倫滋曲線(Lorenz Curve)(戶 數累積百分比為橫軸,所得累積百分比為縱軸之所得分配曲線)與完全均等直線 間所包含之面積,和完全均等直線以下整個三角形面積之比率,所得出的數值介 於 0 與 1 之間,Gini 係數愈大(越接近 1),表示所得分配越不平均,反之,Gini 係 數愈小(越接近 0),表示所得分配越平均(行政院經濟建設委員會,2007)。本研究 藉由 Gini 係數評估不同實驗介面裡標籤被選用次數分佈是否平均?
Gini 係數運算公式:G=|1- ( )|,其中 X 和 Y 分別表 示標籤個數與標籤被受試者選用的次數;k 為觀察值數量。
圖 3-4 洛倫滋曲線(Lorenz Curve)
資料來源:行政院經濟建設委員會人力規劃處(2007)。吉尼係數(Gini coefficient) 在經濟小辭典。檢索日期:2011 年 5 月 20 日,網址:
http://www.cepd.gov.tw/m1.aspx?sNo=0001246
洛倫滋曲線
(二)以 Entropy H(X)評估標籤被選用次數之分佈狀況
Entropy 又稱為熵、亂度。原先是在熱力學中測量系統內失序的程度,而後由 Shannon 以類似「熵」的觀念來定義訊號傳輸中的資訊量,並稱之為「資訊熵」
(information entropy) (Ben-Naim, 2007)。
資訊熵主要是由期望值函數與機率分佈原理所構成。以擲硬幣的機率為例, 測性提高(Ben-Naim, 2007)。
Montemurro & Zanette (2009)採用資訊熵,測量大型資料庫中不同主題、類型的
文件中所出現的詞彙在統計上的分佈狀況和該文件內容之間的關係,結果發現出 現頻率高且分佈廣泛的詞彙所代表的語意較接近文件主旨(Montemurro & Zanette, 2009)。資訊熵的概念也曾應用在衡量期刊影響力之指標-作者分散度上,熵值愈接
(三)受試者選用標籤個數比例
計算在不同介面裡,對應二到七號標籤字體之受試者選用的標籤個數在候選標 籤裡所占的比例,評估標籤字體大小變化是否會影響受試者選用字體大的標籤?
(四)標籤字體大小與標籤被選用次數之相關性
以 Spearman 等級相關係數檢驗在不同介面裡受試者選用的標籤字體大小與標 籤被選用次數,兩者之間是否存有相關性?評估標籤字體大小變化是否會影響受 試者選用字體大的標籤?
三、標籤品質測量方法
標籤品質是一個抽象卻又重要的概念,很少有研究提出非常有效的資料收集 方法獲取完整又精確的相關數據,有鑑於此,本研究將 Sen et al.(2007)的研究中以 大拇指與給星評價方式改良成名次排序法,運用在本實驗作為受試者和館員評斷 標籤品質的方法。
在分析標籤品質的過程。本研究以館員依據其專業能力所選用的標籤評估不 同介面裡受試者所選用的標籤。並以獨立樣本 T 檢定驗證館員選用的標籤的確是 高品質(權重高)的標籤,可為標籤品質的基準。
下列兩種方法是以館員選用的標籤為標籤品質的基準,評估不同介面裡受試 者選用的標籤品質。
方法一:計算館員和受試者共同選用的標籤個數,再予以正規化。
方法二:以 Spearman 等級相關係數檢定館員和不同介面裡受試者選用標籤名次的 相關性。
因 為 每 一 位 受 試 者 和 館 員 在 每 一 本 書 裡 選 用 的 標 籤 數 量 不 固 定 , 故 以 Spearman 等級相關係數檢定之前,要先將選用標籤的名次轉換成標準化數值。標 準化的方法是以 1 除以名次:排在第一順位的標籤其數值為 1;排在第二順位的標 籤其數值為 1/2,排在第三順位的標籤其數值為 1/3,以此類推下去。
四、訪談內容分析
本研究以錄音筆記錄訪談內容,事後將訪談內容加以歸納分析後節錄部分內 容,作為量化結果的佐證。