漲跌預測模組

第三章研究方法與設計

第二節研究設計

3.2.3 漲跌預測模組

國

立政治大學

‧

Na tiona

l Ch engchi University

Cosine(x,y) = ^∑^𝑖𝑖=1^𝑡𝑡 ^𝑥𝑥^𝑖𝑖^𝑦𝑦^𝑖𝑖

�∑_𝑖𝑖=1^𝑡𝑡 𝑥𝑥²�∑_𝑖𝑖=1^𝑡𝑡 𝑦𝑦² ………(4)

x、y 分別代表兩向量文件，t 表示兩向量文件之維度，若兩文件的維度比例皆相同，即兩互相向量平行，則其夾角為 0，兩向量的餘弦係數為 1，

代表著這兩文件有極高的相似度，反之，當兩文件的維度比例不盡相同時，

餘弦係數將降低，代表著兩文件並不相似。

3.2.3 漲跌預測模組

1. kNN 分類演算法：

即是 k-最鄰近演算法，該演算法是將文件以向量空間模型來表示，再藉由計算與已分類文件的相似度來判斷出欲分類文件可能所屬的類別。而相似度的計算是採用 cosine 相似度來加以計算。分類的步驟如下：

(1) 將新進的新聞文件轉換為向量空間模型。

(2) 將新進新聞文件與各個已分類之新聞文件進行相似度的計算，取出前 k 份最相似的新聞文件。

(3) 將這 k 份新聞文件與新進新聞文件進行的所屬類別之判斷：將擷取出的 k 篇新聞文件中，相同類別內的所有新聞文件與新進新聞文件的相似度加總並除以該類別所包含的文件數，計算公式為：

P�x, 𝐶𝐶_𝑗𝑗� = _𝑁𝑁¹

𝑗𝑗 × Σ_𝑥𝑥_𝑖𝑖_{∈𝐾𝐾𝑁𝑁𝑁𝑁}𝑆𝑆𝑖𝑖𝑆𝑆(𝑥𝑥, 𝑥𝑥_𝑖𝑖)𝑦𝑦(𝑥𝑥_𝑖𝑖, 𝐶𝐶_𝑗𝑗)………(5)

其中，𝑥𝑥為新進文件之特徵向量；𝑆𝑆𝑖𝑖𝑆𝑆(𝑥𝑥, 𝑥𝑥_𝑖𝑖)為相似度計算公式；而 𝑦𝑦(𝑥𝑥𝑖𝑖, 𝐶𝐶𝑗𝑗)為類別屬性函數，即若𝑥𝑥𝑖𝑖屬於類𝐶𝐶𝑗𝑗則函數值為 1，否則為 0；𝑁𝑁𝑗𝑗則為第 j 類所含的文件數量。計算出新進文件與各類別之相似度後進行比較，數

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

值最大的類別則為新進文件的所屬類別。

2. 文件訓練方式：

由於本研究中採用監督式學習的 kNN 演算法，需要有明確的判別依據才能進行分類。本研究採用收盤價變動量與技術分析指標進行訓練資料。

本研究假設新聞影響股價之為新聞發布前後 t 日，因此本研究將以個股收盤價之漲跌變動量作為訓練資料之判別依據，如圖 3.2 所示：

圖 3.26新聞影響股價漲跌示意圖 (資料來源：喻欣凱，2008)

以宏達電為例，根據 2012 年 4 月至 2012 年 11 月之漲跌幅統計，當，

收盤價變動量大於上漲門檻值時，將此則新聞歸類為上漲；而當收盤價變動量小於下跌門檻值時，將此新聞歸類為下跌；介於此範圍內的新聞則歸類為持平。假設宏達電於 j 日發布了一篇新聞，其計算公式如下：

收盤價變動量

𝑗𝑗 = ^收盤價_收盤價^{𝑗𝑗+𝑡𝑡}⁻^收盤價^{𝑗𝑗−𝑡𝑡}

𝑗𝑗−𝑡𝑡

………(6)

本研究採用 5 日收盤價變動量作為分類訓練之依據，但考慮到如圖 3.3 所示之情況：股價於 i 日前呈現上漲趨勢(或下跌)，而股價從 i 日開始一路下跌(或上漲)至 j 日，即 i 日為股價之轉折點，而新聞

𝑖𝑖可能因 i 日之收盤價

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

變動量大於(或小於)門檻值，而被歸類為上漲(或下跌)類別所產生之謬誤，

因此在訓練資料時加入技術指標作為輔助，在 i 日出現賣出(或買進)訊號出現時，將新聞

𝑖𝑖歸類為下跌(或上漲)類別，希望藉此提高分類準確率。

圖 3.37新聞發生日即股價轉折點示意圖 (資料來源：本研究自行整理)

而訓練資料用的技術指標則採用平均移動線(MA) 、相對強弱指標(RSI)，

以下分述說明：

(1) 平均移動線(MA)：

平均移動線為能夠簡單找尋買賣點的方法，當短期 MA 線突破長期 MA 線時顯示買進訊號，反之則顯示賣出訊號，簡單算術平均數(𝑀𝑀𝑀𝑀𝑡𝑡) 和指數平滑移動平均數(𝐸𝐸𝑀𝑀𝑀𝑀_𝑡𝑡)的計算公式如下：

𝑀𝑀𝑀𝑀𝑡𝑡= ^{收盤價加總}_𝑡𝑡 ^𝑡𝑡 ……… (7) 𝐸𝐸𝑀𝑀𝑀𝑀𝑡𝑡 = 𝐸𝐸𝑀𝑀𝑀𝑀𝑡𝑡−1 × �^N−1_N � + ^𝑃𝑃_N^𝑡𝑡 ……… (8)

其中，N 代表移動平均數日期；𝑃𝑃_𝑡𝑡代表當日收盤價；t 代表的為平均移動線計算的期間。

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

(2) 相對強弱指標(RSI)：

相對強弱指標是一特定期間內，股價上漲總幅度的平均值佔同一期間內漲跌總幅度的平均值之比例，常用以研判股市超買與超賣的現象，

下為 RSI 之計算公式：

RSI_t= 上漲和下跌總幅度平均值^{上漲總幅度平均值}^t t ………(9)

另外，本研究為了持續增加預測模型的準確度，會使用前一次預測模型抽取出的關鍵字詞，新一次預測模型的訓練模式，例如：當第一次實驗結束後，宏達電從大漲群集與大跌群集中抽取出「蝴蝶」、「漲停」、和「跌停」

等字詞，在新一輪的文件訓練中，當新聞之標題包含以上詞彙，會直接將該篇新聞依照此關鍵詞彙之類別進行歸類。

3. 2-way kNN 分群演算法：

本研究將 2-way kNN 的運算再做簡化，將已分群的新聞文件視為目標群集，未分群的新聞文件視為其他群集，當一新聞文件加入時便會與目標群集內的所有群及進行相似度計算，其計算方式與 kNN 相同，而計算結果之相似度若是未達到相似度門檻值，則該文件會自成一新群集。

當新聞文件分類結束後，再使用 2-Way kNN 演算法做分群處理，將上漲與下跌兩類別內的新聞再分為若干群集。

在文檔中應用文字探勘文件分類分群技術於股價走勢預測之研究─以台灣股票市場為例 - 政大學術集成 (頁 32-35)

第三章 研究方法與設計

第二節 研究設計

3.2.3 漲跌預測模組

國

立 政 治 大 學

‧

3.2.3 漲跌預測模組

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

第三章研究方法與設計

第二節研究設計

立政治大學

立政治大學

立政治大學

立政治大學