• 沒有找到結果。

第四章 研究結果

第二節 倒傳遞類神經網路預測模型之參數建構

的(羅華強,2005)。本研究於預測模型之隱藏層所使用之活化函數為 logsig 函 數,原因在於模型中欲加入新聞事件數量之比例,其值將介於 0 到 1 之間,因此 採用 logsig 函數較為適合,而輸出層為隔日收盤價,此數值在股票市場上並沒有 範圍,因此所採取之活化函數為 purelin 函數。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

29

當倒傳遞類神經網路預測模型之輸出層無法得到目標值,則需將誤差函數透 過最除坡降法修正其權重值與偏權值,使誤差值達到容忍範圍內或迭代次數達到 上限為止。(張斐章、張麗秋,2005)

3. 隱藏層層數

研究顯示,隱藏層不需超過兩層以上,而一或兩層則沒有定論(Chester, 1990;

Hayashi et al., 1990;Kurkova, 1992;Hush & Horne, 1993;張斐章、張麗秋,2005), 其中 Hush & Horne(1993)指出,某些問題中使用兩層隱藏層的網路,各隱藏 層只需有少量神經元即可以取代「使用一層,但需要數量龐大神經元」隱藏層的 網路。

4. 隱藏層神經元個數

可由兩種方式達成(Dawson & Wilby, 2001;張斐章、張麗秋,2005):網路 修剪法(Pruning algorithm)(Abrahart et al., 1998)及網路增長法(Constructive algorithm)(Kwok & Yeung, 1997)。前者先將隱藏層個數設為極大,並逐一修剪 神經元個數,直到超過誤差容忍範圍為止,然而此方式需耗費大量時間,效率較 低;後者則將隱藏層個數設為最小,再逐一增加神經元個數,直到誤差達到容忍 範圍為止,相較之下,此方式的效率較佳,能以較經濟的方式達成,因此本研究 將採用網路增長法選取適合之神經元個數。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

30

整體而言,倒傳遞類神經網路預測模型之結構整理如圖:

圖 倒傳遞類神經網路預測模型之結構 資料來源:本研究整理

其中,輸入層之質化資料以各類別之新聞事件數量輸入,量化資料以交易量、

收盤價及 3 日帄均價為指標;輸出層則為隔日收盤價;活化函數之隱藏層及輸出 層分別以 logsig 及 purelin 函數為主。而層數及各層之神經元個數之決定則將由 研究結果進一步探討之。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

31

第三節 研究樣本與統計檢定

3.1 研究樣本

為了避免新聞經過大量報社的整合(如 Yahoo 新聞或 Google 新聞等),造成 對權重計算或選擇特徵值的影響,本研究資料來源將選擇以報社出身之「自由時 報電子報」為新聞文件樣本,採取 2009 年 1 月 1 日至 2009 年 12 月 31 日之新聞 資料,共 5767 筆新聞文件,帄均一天有 15 篇新聞文件;而股市基本面資訊如交 易量、收盤價、3 日帄均價等資訊,則選擇「台灣經濟新報資料庫」所提供之半 導體類股做為研究對象,而 2009 全年包含 251 個交易日。圖 3.1.1 及圖 3.1.2 分 別為自由時報電子報及台灣經濟新報資料庫畫面。

圖 3.3.1 自由時報電子報 資料來源:本研究整理

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

32

圖 3.3.1 半導體類股交易資訊 資料來源:本研究整理

3.2 統計檢定

一般類神經網路預測模型以 MSE(Mean Square Error)或 RMSE(Root Mean Square Error)為評估標準,分別為公式(8)、公式(9)所示,其中xi表示預測值,

而ti表示實際値:

E = xi−tni 2 ... 公式(8)

E = √ xi−tni2 ... 公式(9)

本研究採取對照的實驗模型,因此將使用 RMSE 做成對樣本之顯著性檢定 加以檢驗兩模型之差異。值得一提的是,無論是 MSE 或 RMSE 之評估標準,類 神經網路在建置過程中容易產生過適化,亦即實驗模型之訓練過程中,誤差值越 低將使學習能力過於合適,卻相對造成驗證過程之誤差結果不佳的情形。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

33

第四章 研究結果

本研究將研究架構分為兩部分──「新聞事件分群與分類」及「倒傳遞類神 經網路預測模型」,本章將針對研究架構依序進行三個實驗:首先針對類別詞庫 之建立做相關討論,接著對於倒傳遞類神經網路預測模型之參數建構進行分析;

最後則以統計檢定評估預測模型之預測方向正確性及預測準確率是否呈現顯著 差異。

第一節 類別詞庫之建立

本研究使用 RTD-based kNN 分群技術將新聞文件轉化成新聞事件,期待降 低資訊量之非結構化資訊亦能對於股票市場造成影響。然而為使新聞事件能在倒 傳遞類神經網路預測模型中獲得有效的學習能力,本研究將建立事件之類別詞庫,

使新聞事件能夠依照相似度高低將其分類為正向、持帄或負向新聞事件。

為了建立新聞事件之類別詞庫,本研究對於 2009 年半導體類股報酬率之天 數分佈初步觀察,統計結果繪製折線圖如圖 4.1.1,圖中可看出,半導體類股報 酬率之漲跌幅度介於-7%至 7%之間,而其中 68%則集中於-1%至 3%,推論半導 體類股大致呈現左偏之趨勢,屬於正向緩和成長。本研究欲藉由報酬率區間之界 定,從新聞事件中挑選適當之關鍵字代表。

詞彙可依據詞彙於一篇文章中所出現次數(Term Frequency, TF,以下簡稱為詞 頻),及關鍵詞權重作為篩選考量,其中詞頻太低可能造成太多雜訊,而詞頻過

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

35

表 4.1.1 類別詞庫數量比較

±4% 類別 正向 持帄 負向

天數 11 232 8

詞庫數量 39 17 26

±3% 類別 正向 持帄 負向

天數 19 211 21

詞庫數量 33 18 31

±2% 類別 正向 持帄 負向

天數 33 168 50

詞庫數量 30 19 33

資料來源:本研究整理

表 4.1.1 分別以報酬率作為類別詞庫之實驗:當報酬率介於±4%時,雖然正 向類別及負向類別所佔天數較少(8 天、11 天),詞庫數量卻明顯集中於此二類 別,顯示正向類別及負向類別擁有較明顯特徵之關鍵字。然而當報酬率介於±3%

及±2%時,正向與負向之關鍵詞已有趨於帄均的現象。為了呈現報酬率介於± % 之正負向類別詞庫數量比例,本研究將選取報酬率±3%範圍做為類別詞庫之分界,

並進一步對新聞事件之分類結果討論。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

36

此處以 2009 年 10 月 29 日一正向新聞事件及其關鍵字做類別詞庫為例加以 討論,其標題如下:

第三季獲利亮眼 楠梓電、尖點抗跌 Q3 台達電 EPS1.21 元 光寶科 1.13 元 Q3 營收與獲利 緯創、仁寶創新高 景氣復甦 矽品明年資本支出達百億 Q3 聯詠 EPS1.91 元 凌陽 0.59 元

此五篇新聞文件敘述第三季於太陽能個股呈現景氣復甦之現象,包括產能率 提升、營收與獲利增加,使得投資成本提高等,觀察該新聞事件所挑選出來的關 鍵字,其中「盈餘」、「營收」、「獲利」、「成長」、「盈餘」、「提升」、「增加」出現 次數最為頻繁,其他如「改善」、「復甦」、「受惠」、「抗跌」、「搶眼」等皆有助於 用以描述該新聞事件之關鍵字,整體而言,可由類別詞彙看出該事件所表達的為 一正向新聞事件。又,對應至半導體類股報酬率所造成之正向影響可推測,太陽 能產業與半導體產業具有密切關係,因而當太陽能相關之正向新聞事件產生時,

造成半導體類股之報酬率亦呈現正向影響。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

37

第二節 倒傳遞類神經網路預測模型之參數建構

在倒傳遞類神經網率預測模型中,為了選擇適當參數,本研究將迭代參數設 為 2000,而學習參數為 0.7,又研究顯示隱藏層層數不需超過二層(Chester, 1990;

Hayashi et al., 1990;Kurkova, 1992;Hush & Horne, 1993;張斐章、張麗秋,2005), 因此本研究將以此為基礎實驗神經元個數,採用網路增長法觀察其 RMSE,預測 模型之架構如圖 4.2.1,依照此網路模型進行實驗,而 251 筆資料來源中,本研 究隨機挑選 168 筆做為訓練資料,其餘 83 筆則做為測詴資料,實驗結果列於表 4.2.1,並依此探討神經元個數之選擇方式。

圖 4.2.1 預測模型之架構 資料來源:本研究整理

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

39

由表 4.2.1 可看出,一層預測模型之 RMSE 範圍介於 0.0270 至 0.0277 之間,

而二層預測模型介於 0.0286 至 0.0501 之間,初步推論,層數的增加雖然使權重 值之修正方向增加,卻因為受限於相同迭代次數,難以有效改善預測模型之誤差 值。另一方面,若訓練階段所得 RMSE 越低,將有效降低測詴階段之 RMSE,

亦即兩者具有正向關係,因此預測模型可根據訓練期間所得之 RMSE 決定其參 數。因此本研究將設定訓練過程中 RMSE 最低之參數作為下階段實驗的基準,

即層數為 1,神經元個數為 4 之預測模型。

圖 4.2.2 為該預測模型之預測趨勢圖,上下圖分別為訓練及測詴階段,顯現 預測模型之訓練階段有助於幫助學習預測之能力,然而預測能力則依賴參數之調 整。此外,圖 4.2.2 亦呈現半導體產業於 2009 年之股價呈現正向成長,呼應上一 節報酬率分布圖中,多達 68%的交易日資料集中於-1%至 3%之間,顯示該產業 確時有穩定成長之趨勢。

圖 4.2.2 含新聞事件之預測模型(層數為 1,神經元個數為 4)

資料來源:本研究整理

相關文件