由於新聞消息中隱藏各種影響投資者決定策略的資訊(Ahmad, Oliveira, Manomaisupat, Casey & Taskaya,2002)進而影響投資者的從眾效應(陳志宏 2007)
投資相關概念股,因此本章抓取中央社財金新聞,並以蘋果類股為標的,透過文 字探勘之技術找出新聞報導下所隱藏的蘋果概念股,探討所有概念股新聞所代表 的情緒與蘋果股價是否有齊漲齊跌之關係。
本研究整體架構分為兩階段:
第一階段:以文字探勘技術將新聞作前置處理後,使用關聯度分析找出新聞 中所隱藏之蘋果相關概念股,並以結合技術分析(股價)來驗證概念股是否有共同 移動之現象。
第二階段:透過情緒探勘找出新聞中蘋果概念股的情緒後,與股趨勢圖及相 關係數比對,以驗證前置處理所找出的概念股是否有共同移動現象並做過濾。最 後再以相關股票國際指數、總體經濟指數、股票相關技術加上新聞輿情或蘋果股 價建立 SVM 模型以預測短期漲跌。
3-1 第一階段:尋找新聞中隱藏之概念股
圖 2:新聞前處理
24
3-1-1 資料來源
本研究透過 JavaAPI:Jsoup(網路爬蟲之 API),總共抓取中央社 2014 年 9 月
~2014 年 12 月約 10000 篇財經類別之新聞,這些新聞中所包含的種類多樣,如:
股市新聞、產業新聞、房市新聞...等,要從中找尋想要的資訊並不方便。因此本 研究將新聞依照月份做歸類並給予新聞編號以便查詢使用。如下表 2:
圖 3:資料庫新聞示範
3-1-2 斷詞處理
為了瞭解文章之意義需將文章做斷詞動作(喻欣凱 2008),因此本研究採取 CKIP 斷詞服務,將所有新聞按照月份做斷詞處理,將每個字詞建立編號並將所有斷詞 存入字詞庫中兩 table 中,一個字詞編號所對應的中文斷詞;另一個為每篇新聞 中所包含的字詞編號,以便未來做分類及建立情緒詞庫使用。 如下:
圖 4:字詞編號表 圖 5:新聞對應的字詞表
25
3-1-3 Research 蘋果新聞
完成斷詞後,本研究 search 每個月的字詞庫,從中找出"蘋果"之字詞及對應到的 新聞編號,並且找出共 654 篇關於蘋果的新聞,舉例 9 月的新聞為例如下:
圖 6:9 月新聞的斷詞後之"蘋果"詞彙編號
圖 7:9 月有關蘋果新聞的編號
3-1-4 新聞過濾與關聯度分析
新聞過濾:
由於單單透過字詞的評判,無法正確的得知新聞是否真正地在談論蘋果電腦,
再加上本研究希望找出蘋果新聞中所隱藏的概念股。因此本研找尋許多投顧報告,
並且整理出鴻海、台積電、可成、玉晶光...等 20 家台灣上市上櫃科技大廠;
之後透過字詞庫比對 3-1-3 所得的 9~12 月共 650 篇新聞中是否包含這些科技大 廠之詞彙,將所得解果存成布林資料庫。
如下圖:1 代表新聞中有提及此公司,0 則反之沒有
26
圖 8: 新聞過濾布林表
得出此資料表後,本研究將沒有包含任何其他概念股(所有布林之為 0),而 這些新聞有極大的"可能"是談論蘋果公司本身的產品或營運狀態亦或是水果-蘋 果之新聞,因此本研究將與去除以免失真。最後得出 224 篇有關於蘋果概念股之 新聞。
關聯度分析 Apriori 演算法
為 1994 年 Agrawal 等人提出的 Apriori 關聯規則演算法[18],核心是以兩階段 級頻集思想的推演,找出大於支持度大於最小支持度的項集,此項集稱為頻集項 集,也稱為最大項集。其演算法如下:
圖 9:Apriori 演算法
27
以下表舉例例來說:下表為資料庫 D,項集={鴻海,台積電,中華電,大光}。
考慮關聯法則鴻海→台積電,即找出新聞中出現鴻海也出現台積電之新聞。
可以得出下列
Support= 2/3:共有 3 個新聞資料,新聞編號 1 及新聞編號 2 同時出現鴻海及 台積電,Support=(NewsID 1+ 2)/所有新聞
Confidence = 2/3;在鴻海出現的相關新聞之下,台積電也出現的機率,
confidence=(NewsID 1+2)/(NewsID1+2+3) 表 2:Apriori 示範
NewsID 鴻海 台積電 中華電 大立光
1 1 1 0 1
2 1 1 0 0
3 1 0 0 0
本小節最後將透過 Apriori 演算法,分析圖 8 布林表,以找出新聞中之概念股
3-1-5 概念股與台股大盤共同移動檢定
3-1-4 找尋出的概念股,是新聞中最常與蘋果公司共同出現的"話題",這些 概念股是否因有關連性或是共同的話題性而一起被投資人看中而投資,從圖表來 看不可得知,因此本研究透檢定方式來驗證這些候選概念股相對於台股大盤是否 有共同移動之關係。
股價共同移動程度檢定:
分別取欲檢定之概念股所對應大盤在同一時間區間每一開盤日上漲個股數 及下跌各股數,以計算其股價共同移動程度值 ,大盤共同移動值計算方式如下:
:第i天大盤上漲個股數量
:第i天大盤下跌個股數量
:第i天大盤股價共同移動程度值
28
= Max
此外,候選概念股共同移動值計算方式如下:
:第i天候選概念股上漲個股數量 :第i天候選概念股下跌個股數量 :第i天候選概念股共同移動程度值
= Max
此股價共同移動程度計算方式所代表一群股票單日股價漲跌的不平均程度,其值 會介於 0.5~1 之間:
若一群股票在當日內上漲或下跌程度相同,則其共同移動程度值: = Max =1/2。
反之,若一群股票在當日內所有股票皆為上漲或下跌,則其共同移動程度值:
= Max =1。
因此若數值 越接近 1,代表這群股票當日共同移動程度較為一致;反之若越接 近 0.5,則代表者群股票當日共同移動程度較不一致。
得到移動程度後,本研究採取 t 檢定來做驗證,假設大盤指數沒股價共同移 動之現象,並使用以下方式檢定:
兩成對母體平均數差異之 t 檢定,n=120,α=0.05 大盤在第i天股價共同移動程度:
計算大盤每日股價共同移動程度平均值 ,標準差 概念股在第 i 天股價共同移動程度:
計算選定知改念股每日股價共同移動平均值 ,標準差 =1,2,3...n
29
:概念股沒有股價共同移動之現象,與大盤股價移動無異,
:概念股有股價共同移動之現,
計算檢定統計量:T=
拒絕域(RR)={|T| },接受域(AR)={T }
若 T 統計量於接受域 AR 則接受虛無假設,表示 和 無顯著差異;反之若 T 統計量於拒絕域則拒絕虛無假設 ,接受對立假設 ,表示 和
有顯著差異,且 顯著大於 。
30
3-2 第二階段:情緒探勘與股價共同移動分析
圖 10:輿情探勘
3-2-1 找尋概念股新聞 id:以 9 月份鴻海新聞為例
透過字詞庫 ID,找尋新聞庫中所有關於鴻海的新聞。
圖 11:尋找概念股相關新聞
31
3-2-2 透過 Python Research TermName 並且與台大 Ntusd 辭典做 情緒比對,以鴻海 9 月某一則新聞為例:
表 3:詞彙與語意庫比對
透過上述方式比對新聞的斷詞與NTUSD後,得到8個正面詞彙:投資、管理、
經驗、成長、娛樂、能力、發展、生產。且沒有任何負面詞彙,因此本研究初步 將此篇文章以8-0=8作為此篇文章之情緒。
將 Preprocessing 所得概念股與蘋果之每日相關新聞與情緒詞庫做比對,計 算每日蘋果概念股平均情緒,幫助本研究透過新聞輿情的分析,能更了解概念股 新聞的輿情走向及周期性。(鄒函升 2014)
正面詞庫 負面詞庫
一帆風順,一帆風順的,一 流,一致
一致的,了不起,了不起的, 瞭解,人性...等,共 3 千多 個正面詞彙。
一下子爆發,一下子爆發的 一連串
,一巴掌,一再,一再叮囑,一 拳,一般殺人罪,一陣狂風...
等,共 8 千多個負面詞彙。
32
3-2-3 蘋果概念股新聞情緒與概念股價數值轉換
由於比對情緒庫所得之新聞情緒與歷史股價之數值基底不同,因此本研究將 兩數值需先以移動平均做轉換找出移動趨勢,再將移動平均正規化將資料轉換到 同個標準以便比較。
數值轉換:
移動平均:移動平均是一種統計處裡方式算出平均成本的概念,將數字做算 術平均;移動平均的種類相當多種,可分為短期(5 日及 10 日)、
中期(也稱為月線,24 日、25 日及 26 日)及長期(也稱半年線,
146 日或 150 日。)
由於股票市場訊息面變化快速,造成的影響也非常急遽,所以情緒造成的影 響也相當短暫,因此本研究採取 5 日移動平均(即單周移動平均),以作為後 續正規化之使用。
正規化:正規化得目的是將不同標準的資料,轉換到同一個標準,以提高分 析時的準確度,正規化的種類相當多種,可分為極值正規化(適 用於資料在某個指定範圍內)、Z-score(適用於瞭解資料平均與分 布關係)及十進位正規化(適用於將資料壓縮在區間[0,1])。
由於股價的波動甚大,本研究認為資料範圍須在某個範圍內的極值正規化並 不適合;而將資料壓縮在區間[0,1]的十進位正規化則無法有效地比較股價走 勢也不適合;因此本研究採取需瞭解資料平均與分布關係的 Z-score 做正規 化,來觀察短期內情緒與股價的移動趨勢是否相同。
33
3-2-4 蘋果概念股新聞情緒與概念股價數相關係數驗證
此小節探討新聞輿情與概念股股價的共同移動性,將上述所得正規化後輿情 與股價做相關係數比對,並且透過情緒位移後再次計算相關細數,以證明概念股 之共同移動性。
並透過相關系數比較尋找受蘋果新聞輿情影響天數及更進一步篩選概念股 以做為下階段 SVM 之預測目標。
相關係數驗證及位移天數:
將上一小節正規化後所得之新聞情緒及概念股歷史股價計算兩者間相關係 數ρ:
),探討兩者間之相關性,如果相關係數>0.6 則表示此概念股受蘋
果新聞輿情影響較大且共同移動性較佳;反之相關係數<0.6 則表示此概念股受蘋 果新聞輿情影響較不明顯且無共同移動性。
並且透過新聞情緒做位移,如:將 9/14 之新聞情緒位移至 9/15,重新計算 相關係數是否>0.6,如是則代表情緒領 1 天,反之則代表不相關;9/13 之新聞 情緒位移至 9/15,探討情緒是否領先 2 天...以此類推。
位移後重新計算概念股之相關係數,並選擇相關係數較佳的概念股做為後續 SVM 預測之目標。
34
3-2-5 SVM 模型建立
本節將蘋果股價的相關國外大盤係數、國內影響消費者投資相關指數及股票 相關技術指標作為參考係數建置 SVM 模型,以預測所篩選而得概念股之隔日漲 跌。並以 T 檢定驗證不同訓練%數之 SVM 模型預測能力,以選擇較佳切割資料 方式。
最後本研究透過單獨加入新聞輿情、單獨加入蘋果歷史股價或新聞輿情與歷 史股價共同加入以修改 SVM 模型,探討所研究之輿情及概念股是否有提升預測 能力以玆證明影響性及有助預測之能力。
training %數選擇與 SVM 模型建置:
training %數選擇與 SVM 模型建置: