第三章、 研究方法與設計
第一節、 研究架構
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
領域的專業程度不一,所以只選擇Yahoo 奇摩新聞平台之財經分類新聞中鉅亨 網的新聞做為資料來源,截至2012 年 05 月 21 日~2013 年 01 月 24 日止,共計 1068 篇之網路新聞與其閱讀者之評論,為了考量資料的週延性和預測性,這些 資料的前三分之二也就是前712 篇做為訓練資料之用途,後 356 篇則作為後續 測試資料之預測用途,而訓練資料中,為了確保能在上漲與下跌這個週期中皆 能有資料入選,故接著在訓練資料中,隨機抽取三分之二的資料量作為真正的 訓練資料,而剩餘的資料則可以做為回顧這個模型的資料。新聞與評論之範例 如下頁中表3-1、表 3-2。
另外,本實驗也同步蒐集個股之歷史股價交易資料,經由台灣證券交易所 的網頁中,擷取存入本實驗資料庫,作為後續計算分類模組的重要資料。
圖 3-2 上漲、下跌週期圖示
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
表 3-1 網路新聞範例
標題:鴻海80 元保衛戰!今年市值蒸發 1065 億元 每個交易日少 28 億元...
發布時間:2013-03-05 13:30
蘋果(US-APPL)股價仍未見止跌,續跌 2.4%,在 420 美元附近掙扎,鴻海 (2317-TW)股價也難擺脫蘋果拖累,今天
還是上演開高走低,日線拉出第7 根黑棒,面臨 80 元關卡保衛戰,早盤並曾 失守80 元。鴻海今年以來,是讓投資人最傷心的標的之一,今年以來跌幅達 1 成,市值蒸發約 1065 億元,以今年以來 38 個交易日估算,平均每個交易 日市值跌掉28 億元。
鴻海去年底收盤價為88.9 元,隨蘋果訂單雜音不斷,蘋果股價持續走軟,鴻 海今年以來,遭到內外資法人聯手砍殺,今年以來,外資共賣超鴻海達19 萬 張,投信、自營商也聯手賣超6.7 萬張,三大法人今年以來共賣超鴻海逾 25 萬張。
鴻海今年以來股價跌多漲少,今天盤中曾失守80 元大關,盤中低點打到 79.7 元,以80 元估算,鴻海今年以來市值蒸發達 1065 億元,而今年以來僅 38 個 交易日,平均每個交易日鴻海市值徵發達28 億元。
雖然鴻海今天後半場奮力守住80 元,但法人對鴻海走勢看法依舊保守,後續 將有2 大觀察重點,一是 3 月底鴻海公布去
年年報,另一則是期待蘋果發表新產品的訊息,鴻海股價未能站回月線之 前,中線均仍採保守態度。
(資料來源:
http://tw.news.yahoo.com/%E9%B4%BB%E6%B5%B780%E5%85%83%E4%BF%9
D%E8%A1%9B%E6%88%B0-%E4%BB%8A%E5%B9%B4%E5%B8%82%E5%80%BC%E8%92%B8%E7%99%
BC1065%E5%84%84%E5%85%83-%E6%AF%8F%E5%80%8B%E4%BA%A4%E6%98%93%E6%97%A5%E5%B0%
9128%E5%84%84%E5%85%83...-053010802.html)
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
表 3-2 新聞評論範例
標題:鴻海80 元保衛戰!今年市值蒸發 1065 億元 每個交易日少 28 億元...
發布時間:2013-03-05 13:30
蘋果減單...DELL/惠普訂單殞落大西部成文子館...大電視退禍...歐鐵冰封筆電 運輸受阻...宏夏失戀投資碰壁....種什麼因得什麼果 80 太高貴了 少個 0 或許 較配襯吧...唉 肖掰無落魄的酷!
媚中親日的下場不只有這樣子而已
台灣最好創造一些有研發性的東西,別一直做別人的死代工奴才~
這代工的勞力錢,賺太多就是剝削廉價勞工。當工資反映回來時,就看得很 清楚
如果只是代工,只有看人臉色。
鴻海高雄的軟體園區,也沒什麼進展?
目前apple 只要一打噴嚏,鴻海就會重感冒.
挺馬英九時候挺囂張挺搖擺的~~~
這種企業根本沒有研發能力!
這個姓郭的,生意不乖乖做,還搞政治,死好!
老板太關心政治,股價就會跌 (資料來源:
http://tw.news.yahoo.com/%E9%B4%BB%E6%B5%B780%E5%85%83%E4%BF%9
D%E8%A1%9B%E6%88%B0-%E4%BB%8A%E5%B9%B4%E5%B8%82%E5%80%BC%E8%92%B8%E7%99%
BC1065%E5%84%84%E5%85%83-%E6%AF%8F%E5%80%8B%E4%BA%A4%E6%98%93%E6%97%A5%E5%B0%
9128%E5%84%84%E5%85%83...-053010802.html)
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
3.2.2.
資料處理模組1. CKIP 斷詞
將新聞平台之網路新聞與該篇閱讀者之評論合併的新聞文件蒐集完成後,
接著便進入文字探勘的資料前處理中,由於文字探勘主要在處理文字運算,因 此必須將其他雜亂之圖片、影音等非文字資料過濾去除,只保留文字的部分,
接著存入資料庫做後續使用。如文獻探討中,為了分析處理非結構化的文件資 料,必須先對文件做斷詞處理,轉化為結構化的資料才能對其做運算,而本研 究使用的斷詞系統為中研院詞庫小組所開發的CKIP 中文斷詞系統,將文件送 入斷詞系統中,除了回傳文件中所有組成的字詞外,還會在字詞中附加詞性標 記。以下為CKIP 斷詞系統處理前和處理後的對照範例:
斷詞處理前:
斷詞處理後:
當文件斷完詞之後,如果文件長度非常大,則後續的運算效能勢必受到影 響,而在這些字詞的詞性中,名詞、動詞、形容詞等相較其他詞性,較具有實 質意義,於是我們利用CKIP 斷詞系統所提供的詞性標記功能,篩選出所需詞 性之字詞,並過濾其他詞性之字詞,藉此減少後續的運算過程,提升執行的效 率
2. 權重計算
當斷詞完並篩選一篇文件中所有組成字詞後,便需要計算其字詞的權重,
選出具有代表性的特徵值來代表該文件的特徵,而權重值的計算為經過以下一 連串的修正所求得。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
1 TF:
由於愈重要的特徵字詞愈容易重複出現在文件中,故以TF 值表示該文件中每 一字詞之出現次數,以此作為文件組成的權重值,其公式如下:
tf, ∑ ,
, ………(式 3-1) 其中, , 是字詞i 在文件 j 中的出現次數,而∑ , 則是文件j 中所有字詞 的出現次數之總和。
2 TF-IDF:
當該篇文件出現之字詞,在每一篇文件皆出現,其所能代表文件的重要性與 出現在較少文件中的字詞相比,相對少了不少,透過TF 值做 IDF 之修正即可 解決此問題。IDF 之運算如下:
idf log| |………(式 3-2)
其中,| |為整個文件集的文件數,而 為字詞i 出現在整個文件集中的文 件數,而TF-IDF 值為 TF 與 IDF 相乘而得,公式如下:
TF IDF tf, idf ∑ ,
, log| |………(式 3-3) 於是修正後,權重值會因字詞在其文件中出現的次數成正比,因字詞在所 有文件集中出現之文件數成反比。
3 Weight:
為了避免文件長度的不同,造成權重值受到影響,故最後針對文件的長度對 TF-IDF 做正規化處理,修正此問題,其公式如下:
Weight ,
∑ , ………(式 3-4) 其中,W,為該字詞之原始權重,即TF-IDF,而∑ , 為所有字詞原 始權總之平方總和。
‧
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
群集。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
4. 將新進新聞文件透過與這 k 份新聞文件之間所屬群集之計算,來判斷新進 新聞文件所屬於之群集,其計算方式為將取出的k 份新聞文件中,把相同 群集內的所有文件與新進新聞文件的相似度做加總在除以該群集所包含的 文件數,其計算公式如下:
P , ∑ ∈ , , ………(式 3-6)
其中, 為新進新聞文件之特徵向量, 為第j 群集所包含的文件數量,
, 為相似度的計算公式, , 為判斷群集的屬性函數,當 屬於群 集 時,其函數值為1,反之則為 0。當計算出新進新聞文件與各個群集之相似 度後,其數值最大的群集就是新近新聞文件所屬於的群集。
第四節、 分群分類績效評估
3.4.1.
分析模組以往預測股價之相關研究中,區分漲跌的方法通常以個股之漲跌變動量作 為評估標準,假設某篇新聞事件於x 日發佈,則其收盤價變動量 x 公式如下:
收盤價變動量 收盤價 收盤價
收盤價 ………(式 3-7)
而喻欣凱(2008)的研究中發現,當反應時間為前後各兩日,收盤價變動量 大於0.03 時,可將此新聞事件歸類為上漲;當收盤價變動量小於 0.03 時,可將 此新聞事件歸類為下跌;當收盤價變動量界於此範圍之間時則表示此新聞事件 無顯著影響。如下圖3-3 所示,事件發生的三個時間點,x-2、x、x+2,當五日 收盤價變動量大於0.03 時,我們可以判斷影響 x 日之事件為影響股價上漲;當 收盤價變動量小於0.03 時,我們可以判斷影響 x 日之事件為影響股價下跌。
圖 3-3 反應時間與收盤價變動量圖 以反應時間為前後各兩日,所計算收盤價變動量
因此本研究以此為準則,將先前所分割之所有集群,透過蒐集的歷史股價 資料計算並標記其群集內之文件收盤價變動量,試圖分析解釋各個群集之特 徵。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
第五節、 研究流程與預期結果
3.5.1.
研究流程1. 將網路新聞及其評論合併為一個新聞文件,並蒐集存入資料庫,同時也將 台灣證券交易所之個股歷史交易資料存入資料庫供後續使用。
2. 取出新聞文件之前三分之二部分,再將其隨機抽取三分之二的資料量作為 訓練資料,而一開始所剩餘三分之一資料量作為未來預測趨勢的測試資 料。
3. 將訓練資料送入資料處理模組中進行前處理,之後再進入 Knn 演算法進行 新聞文件分群。
4. 分群後透過先前台灣證券交易所之個股歷史交易資料,利用計算收盤價變 動量之方式,對新聞文件做標記,進而對各個集群提出分析解釋。
5. 將測試資料放入模型中進行分群,並評估其分析分群結果與實際情況之績 效。
3.5.2.
預期結果1. 蒐集分析新聞和其評論,透過分群分析找出其背後所隱含之意義。
2. 透過先前所建立之模型,丟入測試資料進而對股價漲跌趨勢進行預測。
‧
‧
將測試文件歸屬至前述所建立之模型後,利用精確率(Precision Rate)、召回 率(Recall Rate) 、F-Measure 這些評估指標,評估模型中各個解釋群集整體之效 果,也就是上漲、持平、下跌三種解釋之效果。下表為操作10 次相似度 0.1 及 k 值 1~30 之 kNN 分群分析後,將這 30 個 k 值平均之評估結果:
表 4-1 相似度門檻值 0.1 時操作 10 次網路新聞 k 值為 1~30 之平均評估結果
操作
上漲群集 持平群集 下跌群集
Precision Rate
Recall Rate
F-Measure Precision Rate
Recall Rate
F-Measure Precision Rate
Recall Rate
F-Measure
1 32.654% 20.417% 23.280% 31.981% 40.231% 35.600% 20.014% 9.085% 11.718%
‧
率只有37.014%,下跌群集平均精確率更只有 19.555%,持平群集平均精確率 則有40.533%;而 k 值為 1~30 中的評估結果中,精確率和 F-Measure 超過 50%Precision Rate
Recall Rate
F-Measure Precision Rate
Recall Rate
F-Measure Precision Rate
Recall Rate
F-Measure
1 52.257% 62.738% 54.322% 38.760% 48.748% 43.134% 50.508% 47.429% 47.708%
2 43.788% 39.167% 39.909% 32.992% 47.526% 38.926% 74.841% 19.412% 28.336%
3 45.792% 41.071% 40.434% 47.828% 44.676% 46.170% 42.840% 20.714% 26.330%
4 49.607% 41.071% 41.978% 55.163% 50.317% 52.577% 75.385% 20.000% 31.613%
5 40.420% 39.167% 38.390% 49.488% 47.526% 48.460% 69.852% 12.941% 20.400%
6 54.465% 34.286% 40.099% 47.828% 44.676% 46.170% 24.476% 11.587% 15.528%
7 62.708% 54.896% 55.801% 58.140% 43.973% 50.016% 25.254% 15.962% 19.108%
8 40.420% 34.271% 35.808% 49.488% 42.871% 45.917% 49.894% 8.710% 13.893%
9 39.236% 36.786% 34.904% 49.355% 69.970% 57.823% 60.201% 6.813% 11.690%
10 72.966% 19.688% 28.754% 50.644% 43.306% 46.649% 45.900% 31.071% 34.680%
平均 50.166% 40.314% 41.040% 47.968% 48.359% 47.584% 51.915% 19.464% 24.929%
‧
‧
62.025%,平均而言能達到 71.206%;解釋為下跌之群集,正確率最高達到 76.923%,最低則有 60.000%,平均而言能達到 69.723%。表 4-3 上漲群集之預測正確率
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
表 4-4 下跌群集之預測正確率 實驗
預測下跌 收盤價變動量<-0.03
(實際為下跌)
收盤價變動量>0.03 (實際為上漲)
總數 預測正確率
1 11 7 18 61.111%
2 13 4 17 76.471%
3 19 8 27 70.370%
4 16 5 21 76.190%
5 9 6 15 60.000%
6 17 10 27 62.963%
7 10 3 13 76.923%
8 20 11 31 64.516%
9 15 5 20 75.000%
10 14 5 19 73.684%
平均 14.4 6.4 20.8 69.723%
(資料來源:本研究整理)
‧
‧
66.667%,平均而言能達到 77.838%。表 4-7 新聞文件發布後下跌群集之兩日累積報酬率
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
如表4-7 所示,當一篇新聞文件被歸屬為下跌趨勢時,針對新聞文件發布
如表4-7 所示,當一篇新聞文件被歸屬為下跌趨勢時,針對新聞文件發布