4-1 挖掘概念股與驗證
本研究透過 Apriori 分析,並且將信心程度門檻設為 0.5,來分析 3-1-3 所得 224 篇新聞,並且將每次得到一個概念股就將此概念股相關的新聞納為概念股候 選,並從布林資料表中去除,重新以 Apriori 分析剩下來的新聞,以做階層式分 析。(去除的目的在於,將確定的概念股納為候選後,本研究希望能找出其他概 念股,因此透過去除方式來避免資料的失真。)結果如下:
表 10:Apriori 分析結果
本研究到第二層時,發覺剩餘概念股之信心程度稍微於低落,因此稍微降低 信心程度至 0.3 以尋找信心程度高於 0.3 之改念股,結果如下:
表 11:Apriori 分析結果
篇數 Tier 信心程度 概念股
111 3 0.3 玉晶光
82 4 0.38 台積電
61 5 0.36 台郡
最後本研究透過兩階段的信心門檻的過濾,得到 5 個相關後選概念股:鴻海、
大立光、玉晶光、台積電、台郡,而從階層性來看,其與蘋果公司的關聯程度:
鴻海>大立光>玉晶光>台積電>台郡,此外從信心程度來看,我們可以推測可得
篇數 Tier 信心程度 概念股
224 1 0.5 鴻海
157 2 0.5 大立光
40
一般普羅大眾與新聞記者對於鴻海及大立光是最為熟悉,因此在新聞中最常與蘋 果公司一同出現,而玉晶光、台積電、台郡,相較之下則較不為大眾或記者熟知。
至於本研究利用文字探勘所找出的這些概念股股票間是否有關連性,本研究 將結合股價來作檢定,驗證這些概念股是否相較於大盤有共同移動之現象,以證 明其關聯性。
概念股驗證:
為驗證本研究所發掘之概念股間是否具有關連性,而針對 2014/9~2015/2 月 之大盤與概念股是否有共同移動之特性,以雙母體統計檢定,期間造成的母體平 均差異檢定檢果如下:
0.207
:概念股沒有股價共同移動之現象,與大盤股價移動無異,
:概念股有股價共同移動之現,
拒絕域(RR)={|T| },接受域(AR)={T } 檢定統計量:T
5.768 49(拒絕 假設,接受 假設)
在概念股與大盤共同移動程度之雙母體平均數差異的檢定下,在自由度>100 時, ;而我們計算出的統計量 T 5.768
,因此我們拒絕虛無假設 ,接受 ,換句話說透過本研究所抓取的 5 個概念 股,其 2014/9~2015/2 期間交易日股價共同移動之程度較大盤顯著,故得本研究 所選定的 5 概念股相對於大盤有共同移動之現象。
後續情緒部分將這 5 個概念股新聞作分類,並且探討新聞中詞性之極性來作 為專屬經濟詞庫來源,以作為後續蘋果相關概念股新聞情緒之分析。
41
4-2 新聞輿情與股價之關聯性
本研究將 2014/9~2015/2 半年的新聞中,有關於蘋果、鴻海、大立光、台積 電、玉晶光、台郡相關尋聞從新聞資料庫中抓出後與 NTUSD 做輿情比對以計算 每篇新聞情緒,統計每日所有情緒後做算術平均以代表當日的情緒。
並且與 Preprocessing 所得之概念股及蘋果股價做比較,觀察新聞情緒是否 領先各檔股票。結果如下圖:
42
從上表中,本研究發現新聞輿情值與股價兩者間的基底表準不同,以新聞情 緒與台積電股價為例:新聞輿情位於左 Y 座標區間[-1~7],而台積電股價值位於 右 Y 座標區間[120,148.5],兩者的數值差距過大無法準確的比較其相關性。
因此本研究將數值取5日移動平均並且做正規化 Z-score,使得兩者的基數 以相同標準基底來表示以便後續觀察及驗證。
43
44
新聞輿情與概念股相關係數比較及尋找領先天數
透過上一小節處理,將新聞輿情與股價轉換成相同基底,並以趨勢線圖顯示,
本研究發現新聞輿情與蘋果、玉晶光&台積電之走勢圖較為相近;反之與鴻海、
大立光與台郡較有差異;但透過線圖無法得知其走勢相似度,因此本小節透過相 關係數計算各新聞輿情與個股間的相關性,並以 0.7 作為相關門檻檢驗是否有高 度相關信,以及過濾較無相關的個股。
相關係數比較:
表 12:所有概念股相關係數比較 新聞情緒
與股價
蘋果 鴻海 大立光 玉晶光 台積電 台郡
相關係數 0.735277144 -0.3643 0.45574 0.7136 0.72052 -0.0965 透過觀察上表可知,新聞輿情與蘋果有高度的相關性,且本研究
Preprocessing 所得概念股中玉晶光&台積電相較於其他概念股有較高的相關性,
因此本研究設定此兩概念股為觀察之目標,作為後續 SVM 預測使用。
45
尋找領先天數:
此小節將 9/14 之新聞情緒位移至 9/15,重新計算相關係數是否>0.7,如果 是則代表情緒領 1 天,反之則代表不相關;9/13 之新聞情緒位移至 9/15,探討情 緒是否領先 2 天...以此類推來找出領先天數。
表 13:所有概念股位移後之相關係數比較
遞移天數 蘋果 鴻海 大立光 玉晶光 台積電 台郡
0 0.735277144 -0.3643 0.45574 0.7136 0.72052 -0.0965 1 0.753370547 -0.3494 0.46379 0.70801 0.72244 -0.0838 2 0.762611783 -0.3399 0.46424 0.71079 0.72236 -0.0695 3 0.765257022 -0.3339 0.4697 0.72616 0.72609 -0.0529 4 0.760157057 -0.5346 0.37047 0.30263 0.36858 -0.0551
從觀察上表可知,在位移第三天時玉晶光及台積電的相關係數為最大值,到 第四天時相關係數大幅降低;本研究將此現象歸納為新聞輿情領先玉晶光及台積 電 3 天,因此在觀察蘋果相關概念股時,本研究建議以新聞情緒作為玉晶光及台 積電未來1~3 天內趨勢之參考指標。
46
47
以台積電為例檢定切割比例:
未檢驗切割比例何者較佳,本研究已以雙母體統計檢定,所有預測期間內母 體平均差異檢定檢果如下:
=1,2,3...31;
:以 為資料切割比例之預測台積電股價之準確率沒有優於以 為切割 比例之預測準確
:以 為資料切割比例之預測準確率較佳,
拒絕域(RR)={|T| },接受域(AR)={T } 計算檢定統計量:T=
=
= 1.722884 ,拒絕 假設,接 受 假設。上述結果顯示以 70%為資料切割比對之預測準確度優於以 60%為資 料切割比例。
(b)玉晶光 SVM 模型 60%&70%比較
從下表格,初步觀察切割比例 70%的平均預測力較優於 60%
圖 20:玉晶光不同切割比例之預測準確率
48
以玉晶光為例檢定切割比例:
未檢驗切割比例何者較佳,本研究已以雙母體統計檢定,所有預測期間內母 體平均差異檢定結果如下:
=1,2,3...31;
:以 為資料切割比例之預測台積電股價之準確率沒有優於以 為切割 比例之預測準確
:以 為資料切割比例之預測準確率較佳,
拒絕域(RR)={|T| },接受域(AR)={T } 計算檢定統計量:T=
=
= 1.71748 ,拒絕 假設,接 受 假設。
上述結果顯示以 70%為資料切割比對之預測準確度優於以 60%為資料切割 比例。
由上述檢定可知台積電、玉晶光兩檔股票作資料切割時,以 70%為比列的切 割方法有較高的預測準確率,因此本研究採取 70%為切割比例做為後續 SVM 修 改之比例。
因此最後建立模型時,本研究將上述指數作為 SVM 模型參考因素,再以滾 動方式建置切割資料為 70%的 SVM 模型,預測 4-3 所得領先指標天數 3 天作為 目標天數,探討滾動式 SVM 後 3 天之準確率。
49
4-3-2 SVM 修改
確定 SVM 切割比例後,本階段本研究近一步加入操作指標部分-新聞 輿情 or 蘋果股價 or 兩者都加入以修改 SVM 模型,並且透過遞移 1~3 天,探討 (a)修改後模型的準確率是否有提升之作用,(b) 遞移 1~3 天準確率是否有提升:
一.台積電_SVM
1.加入新聞輿情的台積電 SVM 模型:
表 15:台積電原型 SVM 與加入新聞輿情的 SVM 比較
訓練%數 台積電_SVM 台積電_
新聞輿情_SVM
70 0.611 0.635
(a) 修改後模型的準確率是否有提升之作用:
本研究將輿情加入 SVM 模型作修改後,從上述圖表中觀察可知加入新聞輿 情之 SVM 模型的預測能力高於原本 SVM 模型 2%,由此推斷新聞輿情對於股市 的預測是正面的影響性,能提升預測能力。
(b)將新聞輿情 遞移 1~3 天準確率是否有提升:
由上述表格中,本研究將(a)修改後的 SVM 模型做進一步的調整,將新聞輿 情作位移。
台積電_輿情位移:
將情緒往後遞移一天,如:當本研究想觀察 9/25~9/30 的新聞輿情位移一天 變動時,則將 9/24~9/29 之新聞輿情移至 9/25~9/30 以做觀察。其餘位移 2、3 則 以此類推。
50
51
2.加入蘋果股價的台積電 SVM 模型:
表 18:台積電原型 SVM 與加入蘋果股價的 SVM 比較
訓練%數 台積電_SVM 台積電_蘋果_SVM
70 0.611 0.624
(a)修改後模型的準確率是否有提升之作用:
本研究將蘋果歷史股價加入 SVM 模型作修改後,從上述圖表中觀察可知加 入新聞輿情之 SVM 模型的預測能力高於原本 SVM 模型 1.3%。
由此推本研究斷蘋果歷史股價對於股市的預測也有正面的影響性,能幫助 SVM 提升預測能力。
(b)將蘋果股價遞移 1~3 天準確率是否有提升:
由上述表格中,本研究將(a)修改後的 SVM 模型做進一步的調整後,再對蘋 果股價做位移 1~3 天,以修改 SVM 的模型,並且得到以下結果:
表 19:加入位移的蘋果股價之 SVM 模型比較 訓練%數 原始_SVM 蘋果_SVM 蘋果
1_SVM
蘋果 2_SVM
蘋果 3_SVM 70 0.611 0.624 0.624 0.613 0.613 蘋果股價位移後結果:
觀察上述圖表後,本研究對加入蘋果歷史股價的 SVM 做位移後,發現位移 一天的 SVM 模型預測準確率後與原本加入蘋果的 SVM 相同;而位移後 2 天或 3 天則稍微下降,但與原始 SVM 還是略微提升。
藉此結果本研究推斷蘋果歷史股價確實有領先影響性並且其 SVM 應將變數 設為:訓練 70%數、輿情位移 1 天。
52
53
二.玉晶光_SVM
1.加入新聞輿情的玉晶光 SVM 模型:
表 22:玉晶光原型 SVM 與加入新聞輿情的 SVM 比較
訓練%數 玉晶光_SVM 玉晶光_新聞輿情_SVM
70 0.57 0.5807
(a)修改後模型的準確率是否有提升之作用:
由上述表格中,本研究發現黃色區塊為 SVM 加入新聞輿情後,其準確率從 原本的平均 5 成 7 提升至平均 5 成 8。本研究由此推斷新聞輿情對玉晶光有 些許的影響力,以提升 SVM 準確率。
(b) 將新聞輿情遞移 1~3 天準確率是否有提升:
表 23:加入位移的新聞輿情 SVM 模型比較 訓練%數 原始_SVM 情緒_SVM 情緒
1_SVM
情緒 2_SVM
情緒 3_SVM
70 0.57 0.5807 0.591 0.591 0.57 觀察上述圖表後,本研究對加入蘋果歷史股價的 SVM 做位移後,發現位移 1~2 天的 SVM 模型預測準確率,略為上升 2%;而位移後第 3 天則稍微下降,但 與原始 SVM 預測準確率相同。
藉此結果本研究推斷蘋果歷史股價確實有領先影響性並且其 SVM 應將變數 設為:訓練 70%數、輿情位移 2 天。
54
2.加入蘋果股價的玉晶光 SVM 模型:
表 24:玉晶光原型 SVM 與加入蘋果股價的 SVM 比較
訓練%數 玉晶光_SVM 玉晶光_蘋果股價_SVM
70 0.57 0.538
(a) 修改後模型的準確率是否有提升之作用:
(a) 修改後模型的準確率是否有提升之作用: