國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
35
二、研究方法
本研究以多變量迴歸分析驗證各項假說,但由於財務資料中包括非量化的法 人說明會相關新聞文字資料,必須先將非量化財務資訊數量化以進行進一步的分 析與探討,因此,本研究使用內容分析法(Content analysis)對半導體供應鏈公司 的當次法人說明會新聞資料進行小範圍的特徵詞篩選,再以文字探勘工具 TFIDF 對全體樣本進行編碼及計算特徵詞次數和比例,以形成文字變數。本節分為兩部 分,第一部分簡介內容分析法之意涵與應用步驟;第二部分則為法人說明會新聞 文字資料之內容分析。詳述如下:
一、內容分析法之意涵與應用步驟
Holsti (1969)指出內容分析法是利用系統性的方法客觀地辨識資料內容的特 徵,並做出有效推論的一種方法。雖然內容分析具有多重目的,不過往往是用來 調查傳播內容以作為推論的根據,亦即研究者並非直接與人們面談或是觀察人們 的行為,而是直接針對大眾傳播的內容來做研究並推敲傳播內容為何,因而避免 被觀察者因感受不自在而導致之樣本失真等問題。此外,Berlson (1952)也針對內 容分析法的特性給予其定義:「內容分析法是針對傳播的明顯內容進行客觀的 (Objective)、系統的(Systematic)和定量(Quantiative)的描述。」所為客觀性,是指 在研究過程中每一步驟都必須基於明確的規則和秩序,雖然遵循明確的規則不見 得能完全消除分析人員的成見,但至少將主觀立場降到最低;所謂系統性,是指 內容或類目的採用與捨棄必須始終符合一致的法則;所謂定量性,是對分析內容 加以量化,如對特定符號或某類目的文字出現次數加以統計,以符合研究者目的,
達到衡量準確性之要求。因此,雖然此方法仍夾雜人為主觀判斷誤差之可能性,
但在處理大量繁複之非結構化文字資料時,此方法仍較其他研究方法易於使用,
故本研究採用之。
至於其應用步驟,雖然各家學者看法不一,但根據王石番(1991)綜合各家學 者意見,可歸納出以下十個步驟:
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
36
(一) 形成研究問題
為了正確地引導研究的過程,首先必須要有思慮周延縝密的研究問題和 假設,而要生成周延的研究問題和假設,必須將分析目的釐訂清楚。因此,
本研究之目的之一即在探討法人說明會的新聞文字資訊是否會造成供應鏈 中其他公司的機構投資人之交易行為改變。
(二) 界定母群體
母群體的界定必須闡明內容主體的界限,也就是給予母群體適當的操作 型定義。例如想要研究流行音樂的內容,則必須界定流行音樂的範疇,指明 何謂流行音樂,又是哪一時期之流行音樂等。而本研究之母群體為半導體供 應鏈公司召開之法人說明會的相關新聞報導。
(三) 抽取樣本
礙於人力物力的限制,必須從母體中抽取樣本以作為研究標的。本研究 為提升續後系統判斷之準確性,故抽出 400 筆非量化樣本資料(約 75%)進行 好壞消息判斷。
(四) 界定分析單位
分析單位是內容分析中,必須實際計算的最少元素。而分析單位的界定 並非絕對,視研究者的研究目的或其經驗判斷而定,一般來說內容分析分為 三種單位:抽樣單位(Sampling units)、脈絡單位(Context units)、記錄單位 (Recording units)。抽樣單位為研究者所觀察的客體,對內容分析來說就是各 自獨立的語文描述內容;脈絡單位是用以確定和彰顯紀錄單位特性而必須檢 視的單元界限;記錄單位8則為內容的明確片段(Holsti, 1969),可供研究者進 行分析。而本研究以法人說明會之新聞報導為抽樣單位、以句子為脈絡單位,
以各個句子中足以表彰該句正、負意涵且「最短、最少」的關鍵字詞(組)為 記錄單位。
8 Holsti(1969)指出,常用的記錄單位有單字(word)、字義(word sense)、句子(sentence)、主 題(theme)、段落(paragraph)和全文(whole text)等六種。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
37
(五) 建構類目
簡而言之,類目就是內容的分類。本研究所採用的類目為方向(Direction) 類目,或稱取向(Orientation)類目,用以衡量法說會新聞報導文字資訊正面 或負面觀感的強弱程度。
(六) 建立量化系統
內容分析法除了質性的衡量外,量化的分析也是另一重要部分,而本研 究以中研院中文分詞系統,針對文字敘述進行分詞,並利用文字探勘工具 TFIDF,計算出法人說明會好壞消息關鍵字詞之單詞頻率(Term Frequency) 和獨特性(Inverse Document Frequency),還有全體樣本符合好壞標準之相似 度(0 至 1 之間),藉此量化法人說明會之文字資訊。
(七) 建立信度
Krippendorff (1980)指出,內容分析法之信度的衡量有三種類型:穩定 性(Stability)、再現性(Reproducibility)與準確性(Accuracy)。所謂穩定性是指 編碼原本本身根據類目定義於編碼過程是否具有前後一致性;所謂再現性,
是指不同編碼員對於同樣的文件依循同樣的題目定義是否能產出相同的分 類結果;所謂準確性,是指編碼的過程必須符合明確標準或預定結果的程度。
本研究採用的信度檢驗方式為衡量再現性,即衡量編碼員間信度(Inter-coder reliability)。
(八) 內容編碼
編碼(Coding)即是將分析單位劃分至適當的類目。而本研究的編碼共分 成兩階段,第一階段先將全部 528 筆樣本分為訓練資料和測試資料兩群,然 後針對訓樣資料的 400 筆法說會報導進行小範圍的人工編碼,給予好消息為 1,壞消息為 0;第二部分,利用電腦軟體和文字探勘 TFIDF 技術建立正負 面涵義的關鍵字詞之訓練詞庫,測試剩下的 128 筆報導和正負面涵義關鍵字 的相似度。之後,再將 400 筆以 70(Training):30(Test)、70(Training):30(Test)
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
38
和 60(Training):40(Test)9的標準分次反覆以上部兩階段對經人工判斷的 400 筆進行覆核,最後皆以系統判斷結果為主,得出符合好壞消息之相似度,量 化所有文字資料。
(九) 分析資料
將上述量化結果丟入本研究欲探討之多元迴歸式中,作為實證統計的基 礎,進行更進一步之分析。
(十) 解釋與推論
本於此研究的目的,檢視上游公司召開法人說明會的相關文字報導資訊 是否也會被中、下游公司的機構投資人所參考,進而改變其持股策略。
二、法人說明會新聞文字資料之內容分析
接著,依前述內容分析法的研究流程,抽取法人說明會文字報導進行內容分 析,以下逐一介紹各階段。
(一)前測及人工編碼階段
首先,為了有效且系統性的估計結果的正確於否,本研究使用交叉驗證 (cross-validation)10作為判斷的準則,將全部樣本區分為訓練資料(Training data)和測試資料(Test data)兩部分,並用人工判斷方式從訓練資料(Training data)中建立正負面涵義關鍵字詞之訓練詞庫以協助電腦以此為依據用來判斷剩
9 亦即首先 400 筆資料再分為前 280 筆做訓練資料,後 120 筆為測試資料,將後 120 筆以系統化
方式給予編碼;再按同樣方式,以後 280 筆做訓練資料,前 120 筆作測試資料,將前 120 筆用文 字探勘方式判斷好壞;最後以中間 160 筆作測試資料,剩下 240 筆作訓練資料,判斷中間 160 筆好壞,最後即可得全部 400 筆經系統化判斷後之好壞編碼。
10交叉驗證(Cross-validation) 亦稱循環估計,是一統計學上將母體樣本切割成較小子樣本的實用
方法,可用來驗證模型的有效性或作為估計參數的依據;也可避免因事先觀察到資料,而採取不 同的檢定方式所造成的不客觀檢定結果。交叉驗證可執行一次或重複多次執行,重複多次執行可
視為模擬,而本研究採用交叉驗證常見方法之一:「 K-fold 交叉驗證」。其方法為將母體樣本大
致平均分割為 k 組子樣本,每個子樣本彼此之間互斥,選取一組子樣本當作驗證模型的資料 (Testing data);其他剩餘的 K-1 組子樣本稱為訓練資料(Training data),用來當作建立模型的依 據。重複上述步驟 K 次,即每組子樣本都驗證過一次,以檢視模型之好壞。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
39
下的測試資料(Test data)部分。
而關於人工判斷階段,本研究先找尋三名編碼員訓練並進行編碼前測,建立 各篇新聞判斷好壞標準之準則11,取得編碼員對於編碼一定之共識以減少發生謬 誤的機率。如同 Beynon, Clatworthy, and M. Jones. (2004)將正負面字詞作為量化 文字資訊的指標之一,本研究也將以正負面字詞衡量文字資料的內涵,並經判斷 好壞後給予一好消息(=1)或壞消息(=0)之編碼。舉例如下:
【例】好消息(Positive)
2010/04/27﹝工商時報/財經要聞/A3 版﹞
「晶圓代工龍頭台積電(2330)昨(27)日舉行法說會,第 1 季每股盈餘達 1.3 元符合市場預期,第 2 季因接單持續滿載,營收介於 1,000 億至 1,200 億元間,首度突破千億元大關並創下歷史新高。台積電董事長張忠謀除了 重申今年全球半導體市場將較去年大幅成長 22%,也首度預期晶圓代工 市場今年規模將較去年大增 36%,並指出今年會是個非常好的一年…。」
【例】壞消息(Negative)
2008/01/30﹝工商時報/財經要聞/A3 版﹞
「聯發科、聯電、矽品等半導體大廠昨(三十)日舉行法說會,由於聯發科 本季處於去化手機晶片庫存階段,大減對晶圓代工廠及封裝測試廠下單,
所以聯電及矽品本季展望均低於市場預期,聯電估本季晶圓出貨將季減一 三%至一四%,且單季本業恐將轉盈為虧,矽品則估本季營收將季減一○
11大抵上判斷好壞消息依據歸納出下列指標,但仍會按文章語意調整判斷之。
「好消息」指標如下:(1)止跌回升、由負轉正;(2)優於預期(分析師及機構投資人等);(3)成 長機會(搶到大訂單);(4) 技術提升( 奈米技術提升及製程提升等);(5) 營收增加;(6) 展望 轉趨樂觀;(7) 出貨量大增;(8) 受惠於(訂單轉強及景氣轉好等);(9) 庫存去化(已結束或已
近尾聲等),又「壞消息」指標如下:(1) 下修( 下滑、急跌 )成長率、產能利用率、營收、出
貨量及毛利率等;(2)由正轉負,由升反跌;(3)客戶減少下單及喪失訂單等;(4)庫存去化( 正 要開始、將持續至…及尚未結束等)
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
40
%至一三%,營業利益率將大幅滑落至一七%至一九%…。」
此外,為了強化判斷結果的信度,本研究亦依據 Holsti (1969)所提出的公式,
利用編碼員間的相互同意度與複合信度來驗證三名編碼員之判斷。
(1) 編碼員兩兩相互同意度 相互同意度=
M:兩位編碼員互相同意之數目 N1、N2:兩位編碼員之編碼總次數 (2) 編碼員之複合信度
編碼員複合信度= 平均相互同意度
平均相互同意度
平均相互同意度