• 沒有找到結果。

第三章 研究方法與設計

第二節 研究設計

3.2.3 漲跌預測模組

立 政 治 大 學

Na tiona

l Ch engchi University

Cosine(x,y) = 𝑖𝑖=1𝑡𝑡 𝑥𝑥𝑖𝑖𝑦𝑦𝑖𝑖

�∑𝑖𝑖=1𝑡𝑡 𝑥𝑥2�∑𝑖𝑖=1𝑡𝑡 𝑦𝑦2 ………(4)

x、y 分別代表兩向量文件,t 表示兩向量文件之維度,若兩文件的維度 比例皆相同,即兩互相向量平行,則其夾角為 0,兩向量的餘弦係數為 1,

代表著這兩文件有極高的相似度,反之,當兩文件的維度比例不盡相同時,

餘弦係數將降低,代表著兩文件並不相似。

3.2.3 漲跌預測模組

1. kNN 分類演算法:

即是 k-最鄰近演算法,該演算法是將文件以向量空間模型來表示,再藉 由計算與已分類文件的相似度來判斷出欲分類文件可能所屬的類別。而相似 度的計算是採用 cosine 相似度來加以計算。分類的步驟如下:

(1) 將新進的新聞文件轉換為向量空間模型。

(2) 將新進新聞文件與各個已分類之新聞文件進行相似度的計算,取出 前 k 份最相似的新聞文件。

(3) 將這 k 份新聞文件與新進新聞文件進行的所屬類別之判斷:將擷取 出的 k 篇新聞文件中,相同類別內的所有新聞文件與新進新聞文件 的相似度加總並除以該類別所包含的文件數,計算公式為:

P�x, 𝐶𝐶𝑗𝑗� = 𝑁𝑁1

𝑗𝑗 × Σ𝑥𝑥𝑖𝑖∈𝐾𝐾𝑁𝑁𝑁𝑁𝑆𝑆𝑖𝑖𝑆𝑆(𝑥𝑥, 𝑥𝑥𝑖𝑖)𝑦𝑦(𝑥𝑥𝑖𝑖, 𝐶𝐶𝑗𝑗)………(5)

其中,𝑥𝑥為新進文件之特徵向量;𝑆𝑆𝑖𝑖𝑆𝑆(𝑥𝑥, 𝑥𝑥𝑖𝑖)為相似度計算公式;而 𝑦𝑦(𝑥𝑥𝑖𝑖, 𝐶𝐶𝑗𝑗)為類別屬性函數,即若𝑥𝑥𝑖𝑖屬於類𝐶𝐶𝑗𝑗則函數值為 1,否則為 0;𝑁𝑁𝑗𝑗則為 第 j 類所含的文件數量。計算出新進文件與各類別之相似度後進行比較,數

24

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

值最大的類別則為新進文件的所屬類別。

2. 文件訓練方式:

由於本研究中採用監督式學習的 kNN 演算法,需要有明確的判別依據 才能進行分類。本研究採用收盤價變動量與技術分析指標進行訓練資料。

本研究假設新聞影響股價之為新聞發布前後 t 日,因此本研究將以個股 收盤價之漲跌變動量作為訓練資料之判別依據,如圖 3.2 所示:

圖 3.26新聞影響股價漲跌示意圖 (資料來源:喻欣凱,2008)

以宏達電為例,根據 2012 年 4 月至 2012 年 11 月之漲跌幅統計,當,

收盤價變動量大於上漲門檻值時,將此則新聞歸類為上漲;而當收盤價變動 量小於下跌門檻值時,將此新聞歸類為下跌;介於此範圍內的新聞則歸類為 持平。假設宏達電於 j 日發布了一篇新聞,其計算公式如下:

收盤價變動量

𝑗𝑗 = 收盤價收盤價𝑗𝑗+𝑡𝑡收盤價𝑗𝑗−𝑡𝑡

𝑗𝑗−𝑡𝑡

………(6)

本研究採用 5 日收盤價變動量作為分類訓練之依據,但考慮到如圖 3.3 所示之情況:股價於 i 日前呈現上漲趨勢(或下跌),而股價從 i 日開始一路 下跌(或上漲)至 j 日,即 i 日為股價之轉折點,而新聞

𝑖𝑖可能因 i 日之收盤價

25

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

變動量大於(或小於)門檻值,而被歸類為上漲(或下跌)類別所產生之謬誤,

因此在訓練資料時加入技術指標作為輔助,在 i 日出現賣出(或買進)訊號出 現時,將新聞

𝑖𝑖歸類為下跌(或上漲)類別,希望藉此提高分類準確率。

圖 3.37新聞發生日即股價轉折點示意圖 (資料來源:本研究自行整理)

而訓練資料用的技術指標則採用平均移動線(MA) 、相對強弱指標(RSI),

以下分述說明:

(1) 平均移動線(MA):

平均移動線為能夠簡單找尋買賣點的方法,當短期 MA 線突破長 期 MA 線時顯示買進訊號,反之則顯示賣出訊號,簡單算術平均數(𝑀𝑀𝑀𝑀𝑡𝑡) 和指數平滑移動平均數(𝐸𝐸𝑀𝑀𝑀𝑀𝑡𝑡)的計算公式如下:

𝑀𝑀𝑀𝑀𝑡𝑡= 收盤價加總𝑡𝑡 𝑡𝑡 ……… (7) 𝐸𝐸𝑀𝑀𝑀𝑀𝑡𝑡 = 𝐸𝐸𝑀𝑀𝑀𝑀𝑡𝑡−1 × �N−1N � + 𝑃𝑃N𝑡𝑡 ……… (8)

其中,N 代表移動平均數日期;𝑃𝑃𝑡𝑡代表當日收盤價;t 代表的為平 均移動線計算的期間。

26

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

(2) 相對強弱指標(RSI):

相對強弱指標是一特定期間內,股價上漲總幅度的平均值佔同一期 間內漲跌總幅度的平均值之比例,常用以研判股市超買與超賣的現象,

下為 RSI 之計算公式:

RSIt= 上漲和下跌總幅度平均值上漲總幅度平均值t t ………(9)

另外,本研究為了持續增加預測模型的準確度,會使用前一次預測模型 抽取出的關鍵字詞,新一次預測模型的訓練模式,例如:當第一次實驗結束 後,宏達電從大漲群集與大跌群集中抽取出「蝴蝶」、「漲停」、和「跌停」

等字詞,在新一輪的文件訓練中,當新聞之標題包含以上詞彙,會直接將該 篇新聞依照此關鍵詞彙之類別進行歸類。

3. 2-way kNN 分群演算法:

本研究將 2-way kNN 的運算再做簡化,將已分群的新聞文件視為目標 群集,未分群的新聞文件視為其他群集,當一新聞文件加入時便會與目標 群集內的所有群及進行相似度計算,其計算方式與 kNN 相同,而計算結果 之相似度若是未達到相似度門檻值,則該文件會自成一新群集。

當新聞文件分類結束後,再使用 2-Way kNN 演算法做分群處理,將上 漲與下跌兩類別內的新聞再分為若干群集。

相關文件