• 沒有找到結果。

第三章 研究方法與設計

第二節 研究設計

3.2.6 前測實驗

立 政 治 大 學

Na tiona

l Ch engchi University

2. 平均群間相似度:

平均群間相似度是計算各群集的質心,並將各質心之間的相似度加總並 除以比較次數而得,其公式為:

平均群間相似度 = 𝑐𝑐𝑖𝑖∈𝐶𝐶𝐶𝐶𝑗𝑗∈𝐶𝐶𝑠𝑠𝑖𝑖𝑠𝑠(𝐶𝐶𝑖𝑖,𝐶𝐶𝑗𝑗)

𝐶𝐶×(𝐶𝐶−1)×12 ……… (14)

3.2.6 前測實驗

本研究為取得較佳的分類及分群結果,先使用小群的資料做分類及分群,

調整出較佳的參數與方式,以方便後續實驗之進行。

1. 分類方式:

此前測實驗的主要目的在確認僅採用收盤價變動量與收盤價變動量加上 技術指標,哪種訓練方式可以提供較好的分類效果。本先行實驗使用宏達電 349 篇新聞做 kNN 分類之前導實驗,其中 233 篇為訓練資料,116 篇為測試 資料,k 值設定為 3,訓練方式分別為僅採用收盤價變動量、收盤價變動量 +MA 與收盤價變動量+RSI,實驗結果如下:

表 3.24無技術指標分類結果 預測類別

實際類別 上漲 持平 下跌 總計

上漲 9 4 8 21

持平 1 2 1 4

下跌 36 3 52 91 (資料來源:本研究整理)

29

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

由表 3.5 之評估可發現,在訓練新聞時加入平均移動線修正收盤價變動 量之結果,整體分類準確率達到 0.672,可以明顯看出加入移動平均線後確 實能有效提高其分類效果。而相對強弱指標(RSI)則是本研究中用以輔助訓 練新聞的第二種技術指標,表 3.6 與表 3.7 為加入相對強弱指標(RSI)後之分 類結果:

表 3.68加入相對強弱指標之分類結果 預測類別

實際類別 上漲 持平 下跌 總計 上漲 10 3 5 18

持平 2 2 1 5

下跌 33 2 58 93 (資料來源:本研究整理)

表 3.79加入相對強弱指標之分類評估 評估

類別 Precision Recall F-measure 上漲 0.222 0.556 0.317 持平 0.286 0.4 0.334 下跌 0.853 0.623 0.72

(資料來源:本研究整理)

由表 3.7 中顯示之分類評估表現依然優於未加入技術指標前的分類結果 整體準確率達到 0.603,顯示加入移動平均線之分類結果表現依然較優越,

因此本研究後續之實驗,在分類時將採用收盤價變動量+MA 的方式進行分 類。

31

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

2. 分類參數:

本研究為了找出較佳的 k 值與收盤價變動量之漲跌門檻,在前測研究時 進行 84 回合之數據模擬,其中 k 值設定為 3 至 13,收盤價變動量的門檻由 0.0175 至 0.0205,另外由於新聞取樣期間內大盤走勢不佳,因此另外設定一 組下跌門檻比上漲門檻增加 0.5%跌幅之參數。模擬結果發現,當 k 值設定 為 5,收盤價變動量之門檻值分別設定為 0.0195 與-0.0245 時,可以得到較 佳的分類結果,因此往後的研究也採用此組參數進行實驗(請參考附錄)。

3. 分群參數:

在分群時必須除了分群品質外,也需考慮群集的數量,若是為了提高分 群品質而提高門檻值使群集切割得太細小,反而會使結果不理想。在分群的 先行實驗中繼續使用上述宏達電的資料集,針對上漲類別的 151 篇新聞文件 用 2-way kNN 演算法做分群,k 值設定 5、7、9,文件相似度門檻值則為 0.05、

0.1、0.15、0.2,以下為分群結果:

表 3.810k 值為 5 之分群結果

K 值 文件相似門檻值 群集數量 平均群內相似度 平均群間相似度

5

0.05 5 0.0592 0.2886 0.1 29 0.1599 0.0595 0.15 64 0.3221 0.0476 0.2 109 0.5221 0.0423

(資料來源:本研究整理)

32

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

相關文件