• 沒有找到結果。

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

27

第二節 研究方法

本研究以多變量迴歸分析驗證各項假說,但由於財務資料中包括非量化的法 人說明會相關新聞文字資料,必須先將非量化財務資訊數量化以進行進一步的分 析與探討,因此,本研究使用內容分析法(content analysis)對半導體供應鏈公司的 當次法人說明會新聞資料進行小範圍的特徵詞篩選,再以文字探勘工具 TFIDF 對全體樣本進行編碼及計算特徵詞次數和比例,以形成文字變數。本節分為兩部 分,第一部分簡介內容分析法之意涵與應用步驟;第二部分則為法人說明會新聞 文字資料之內容分析。詳述如下:

一、內容分析法之意涵與應用步驟

Holsti (1969)指出內容分析法是利用系統性的方法客觀地辨識資料內容的特 徵,並做出有效推論的一種方法。雖然內容分析具有多重目的,不過往往是用來 調查傳播內容以作為推論的根據,亦即研究者並非直接與人們面談或是觀察人們 的行為,而是直接針對大眾傳播的內容來做研究並推敲傳播內容為何,因而避免 被觀察者因感受不自在而導致之樣本失真等問題。此外,Berlson (1952)也針對內 容分析法的特性給予其定義:「內容分析法是針對傳播的明顯內容進行客觀的 (Objective)、系統的(Systematic)和定量(Quantiative)的描述。」所為客觀性,是指 在研究過程中每一步驟都必須基於明確的規則和秩序,雖然遵循明確的規則不見 得能完全消除分析人員的成見,但至少將主觀立場降到最低;所謂系統性,是指 內容或類目的採用與捨棄必須始終符合一致的法則;所謂定量性,是對分析內容 加以量化,如對特定符號或某類目的文字出現次數加以統計,以符合研究者目的,

達到衡量準確性之要求。因此,雖然此方法仍夾雜人為主觀判斷誤差之可能性,

但在處理大量繁複之非結構化文字資料時,此方法仍較其他研究方法易於使用,

故本研究採用之。

至於其應用步驟,雖然各家學者看法不一,但根據王石番(1991)綜合各家學 者意見,可歸納出以下十個步驟:

三種單位:抽樣單位(Sampling units)、脈絡單位(Context units)、記錄單位 (Recording units)。抽樣單位為研究者所觀察的客體,對內容分析來說就是各

4 Holsti(1969)指出,常用的記錄單位有單字(word)、字義(word sense)、句子(sentence)、主 題(theme)、段落(paragraph)和全文(whole text)等六種。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

29

(五) 建構類目

簡而言之,類目就是內容的分類。本研究所採用的類目為方向(direction) 類目,或稱取向(orientation)類目,用以衡量法說會新聞報導文字資訊正面或 負面觀感的強弱程度。

(六) 建立量化系統

內容分析法除了質性的衡量外,量化的分析也是另一重要部分,而本研 究以中研院中文分詞系統,針對文字敘述進行分詞,並利用文字探勘工具 TFIDF,計算出法人說明會好壞消息關鍵字詞之單詞頻率(Term Frequency) 和獨特性(Inverse Document Frequency),還有全體樣本符合好壞標準之相似 度(0 至 1 之間),藉此量化法人說明會之文字資訊。

(七) 建立信度

Krippendorff(1980)指出,內容分析法之信度的衡量有三種類型:穩定性 (stability)、再現性(reproducibility)與準確性(accuracy)。所謂穩定性是指編碼 原本本身根據類目定義於編碼過程是否具有前後一致性;所謂再現性,是指 不同編碼員對於同樣的文件依循同樣的題目定義是否能產出相同的分類結 果;所謂準確性,是指編碼的過程必須符合明確標準或預定結果的程度。本 研究採用的信度檢驗方式為衡量再現性,即衡量編碼員間信度(inter-coder reliability)。

(八) 內容編碼

編碼(Coding)即是將分析單位劃分至適當的類目。而本研究的編碼共分 成兩階段,第一階段先針對抽樣的 400 筆法說會報導進行小範圍的人工編碼,

給予好消息為 1,壞消息為 0;第二部分,利用電腦軟體和文字探勘 TFIDF 技術建立正負面涵義的關鍵字詞之訓練詞庫,測試剩下的 128 筆報導和正負 面涵義關鍵字的相似度。之後,再將 400 筆以 70(training):30(test)、

70(training):30(test)和 60(training):40(test)的標準分次反覆以上部兩階段對經 人工判斷的 400 筆進行覆核,最後皆以系統判斷結果為主,得出符合好壞消

(cross-validation)5作為判斷的準則,將全部樣本區分為訓練資料(Training data)和 測試資料(Test data)兩部分,並用人工判斷方式從訓練資料(Training data)中建立 正負面涵義關鍵字詞之訓練詞庫以協助電腦以此為依據用來判斷剩下的測試資 料(Test data)部分。

而關於人工判斷階段,本研究先找尋三名編碼員訓練並進行編碼前測,建立 各篇新聞判斷好壞標準之準則6,取得編碼員對於編碼一定之共識以減少發生謬

5交叉驗證(cross-validation) )亦稱循環估計,是一統計學上將母體樣本切割成較小子樣本的 實用方法,可用來驗證模型的有效性或作為估計參數的依據;也可避免因事先觀察到資料,而採 取不同的檢定方式所造成的不客觀檢定結果。交叉驗證可執行一次或重複多次執行,重複多次執 行可視為模擬,而本研究採用交叉驗證常見方法之一:「 K-fold 交叉驗證」。其方法為將母體樣 本大致平均分割為 k 組子樣本,每個子樣本彼此之間互斥,選取一組子樣本當作驗證模型的資 料(testing data);其他剩餘的 K-1 組子樣本稱為訓練資料(training data),用來當作建立模 型的依據。重複上述步驟 K 次,即每組子樣本都驗證過一次,以檢視模型之好壞。

6大抵上判斷好壞消息依據歸納出下列指標,但仍會按文章語意調整判斷之。

誤的機率。如同 Beynon et al.(2004)將正負面字詞作為量化文字資訊的指標之一,

本研究也將以正負面字詞衡量文字資料的內涵,並經判斷好壞後給予一好消息 (=1)或壞消息(=0)之編碼。舉例如下:

【例】好消息(positive)

2010/04/27﹝工商時報/財經要聞/A3 版﹞

「晶圓代工龍頭台積電(2330)昨(27)日舉行法說會,第 1 季每股盈餘達 1.3

2008/01/30﹝工商時報/財經要聞/A3 版﹞

「聯發科、聯電、矽品等半導體大廠昨(三十)日舉行法說會,由於聯發科

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

32

相互同意度=

M:兩位編碼員互相同意之數目 N1、N2:兩位編碼員之編碼總次數

(2) 編碼員之複合信度

編碼員複合信度= 平均相互同意度

平均相互同意度

N:參與編碼之人員數目

平均相互同意度:編碼員兩兩相互同意度/編碼員人數

(3) 本研究按上述公式計算結果如下:

編碼員 A 編碼員 B

編碼員 C 0.63 0.69

編碼員 B 0.70

平均相互同意度=(0.63+0.70+0.69) ÷ 3 ≒ 0.67 編碼員之複合信度=(3×0.67)÷(1+2×0.67) ≒ 0.86

王石番(1991)指出,雖然信度係數沒有絕對的衡量標準,但其認為信度係數 高於 0.8 才能確保資料的可靠性,本研究編碼員之複合信度為 0.86(高於 0.8),顯 示編碼過程有一定之穩健性和一致性,可供後續作為文字探勘工具 TFIDF 判斷 好壞之訓練資料(Training data)。

(二) 電腦編碼階段

接著,我們效法 Reich and Barai (1999)7將樣本區分為 75%的訓練資料 (Training)以及 25%的測試資料(Test),透過中研院斷詞系統,將文字資料進行斷

7 Reich and Barai(1999)指出訓練(Training)資料比重至少須介於全部樣本 60%-80%間。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

33

詞(見圖三),然後利用文字探勘工具 TFIDF 計算各資料之詞頻(TF)和其獨特性 (IDF),得出關鍵字詞的特徵向量,再將 25%的測試資料經 Cosine 係數公式計算 出和好壞消息關鍵字的相似度(見圖四),最後再看好壞消息相似度之高低,如果 好消息之相似度高於壞消息之相似度,則給予編碼為 1,反之,則為 0。之後再 將此 400 筆訓練資料也分別拆成 70(training):30(test)、70(training):30(test)和 60(training):40(test)的標準分次反覆進行上述程序,對經人工判斷的 400 筆進行覆 核,最後皆以系統判斷結果為主,得出每一篇報導符合好壞消息之相似度,量化 所有非財務文字資料。

圖三 斷詞後結果

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

34

圖四 TFIDF 計算表

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

35

圖五 好(壞)消息相似度判斷