• 沒有找到結果。

第三章 研究方法

第二節 資料前處理

二、 前測

2014.12.31

聯合報 聯合知識庫 2582 中國時報 知識贏家 1911

自由時報

報紙合訂本

(2003.5.2-2004.12.31)

自由新聞網 632

(2005.1.1-2014.12.31)

蘋果日報 蘋果日報網站 552

員間的一致性信度。

(二)流程

1. 刪除單個字:原本共有不重複的 20680 個詞語,刪除字詞長度為 1 的詞 語後剩餘 18236 個;

2. 按詞性篩選:刪除詞性為代詞、數詞、量詞、狀態詞等的詞語,剩餘 16177 個關鍵詞;

3. 刪除低頻無效詞:刪除詞頻為 1 的詞語,占 53.9%,刪除後剩餘 8721 個 關鍵詞;

4. 按詞語貢獻度篩選:

a) 按公式 1 和 2,計算每個詞的詞語貢獻度 TC,並繪製次數分配直方 圖,如圖八,大體上呈現右偏分佈,已知對數轉換可以有效減緩分 佈的偏態性,故接下來對 TC 進行對數轉換;

圖八 詞語貢獻度 TC 的次數分配直方圖

b) 對 TC 進行對數轉換,得到 Log(TC)的分佈如圖九,但總體上看與正 態分佈函數擬合情況優良,此時觀察值的平均值為 0.032,標準差為 0.349,故門檻的初始值定為 0.730,保留下 316 個關鍵詞;

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖九 Log(TC)的次數分配直方圖

為了更直觀地展示門檻變化帶來的影響,我們可以繪製 Log(TC)的互補累積 分佈折線圖(Complementary Cumulative Distribution, CCD)來進行一場沙盤推 演,如圖十所示。該圖上每個點(x, y)表示的是「若 Log(TC)門檻取 x,則可以保 留佔總數百分之 y 個關鍵詞」,隨著門檻 x 的抬升,保留下來的關鍵詞佔比 y 必然一步步減少,因而 Log(TC)互補累計分佈圖會是一個遞減折線圖。

圖十 Log(TC)的互補累積分佈折線圖

我們可以在這個折線圖上進行一場沙盤推演,設想門檻從左往右勻速抬升,

剛開始(Log(TC) < -0.669)風平浪靜,篩掉關鍵詞的速度很慢,直到越過-0.669

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

的門檻後,風雲漸起,關鍵詞分佈變得密集,篩掉的關鍵詞數量直線下降,觸底

(Log(TC) = 0.730)後,下降的速度放緩,猶如輕舟到岸,再次歸於平靜。因而,

我們可區分出三個關鍵詞梯隊,Log(TC) =[-1.15, -0.669)、[-0.669, 0.730]、(0.730, 1.42],並且最終保留訊息量最大的第一梯隊(Log(TC) >0.730)。

5. 檢查關鍵詞涵蓋的文本數量,發現已經全部覆蓋整個實驗資料集中的 397 則文本,完成篩選程序。最終保留 316 個關鍵詞,篩掉了超過 98%

的詞語。

(三)結果

篩選效度檢驗:本研究所稱的篩選效度,指的是以人工篩選的結果作為標準 答案,檢視前述的四步驟篩選是否可以得到研究者真正需要的關鍵詞。具體做法 為,由兩位編碼員遍覽所有關鍵詞,一一回到文本中查驗該詞是否有意義、是否 對後續的類目建構有用,若沒有完整意義或意義含糊,則予以刪除。在這 316 個關鍵詞中,有 264 個有效關鍵詞,占 83.5%,說明斷詞與篩選流程效度理想,

篩選到的關鍵詞內涵豐富且具有代表性。這一階段兩位編碼者之間的相互同意度

(Holsti, 1969)為 67.8%。

框架類目的編碼員間一致性信度檢驗:由一位編碼者由下而上地歸納框架,

再將得到的分類製作成編碼表,與另外一位編碼者討論確認,讓後者獨自對照編 碼表進行分類。結果顯示,兩位編碼者之相互同意度為 91.7%,達到可接受的信 度水準。

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y