• 沒有找到結果。

第三章 研究方法

第一節 分析流程

由於動態預測的分析流程略為複雜,本節將逐一講解如何建構分析流程。一 般動態預測基本的分析流程依序為:資料蒐集、資料清洗與整理、依時間點不同(即 動態)將資料分組、依組別各自進行演算法預測,經過此流程,即可得到最基本的 動態預測結果,計算出各時間點的預測準確率。如圖 4 所示。

圖 4 動態預測分析流程說明步驟一

另外在機器學習中,為了避免高估預測準確率,通常會將資料分為訓練組與 驗證組,訓練組用以訓練演算法模型參數,再以訓練好的模型來預測驗證組的資 料,藉此衡量預測準確率,此方法即是交叉驗證法。然而這樣的預測準確率仍存 在分組誤差,因此學者也發展出將樣本分割成數組,取其中一組為驗證組,其他 組為訓練組來訓練模型,以計算預測準確率,接著每一組輪流做驗證組各別計算 預測準確率,再將所有預測準確率進行平均即可,此即是著名的 K 次交叉驗證法 (K-folds cross validation) 。 本 研 究 因 研 究 樣 本 較 少 , 故 採 留 一 交 叉 驗 證 法 (Leave-one-out cross validation),詳細介紹將於第五節講解之。因此加入交叉驗證 法的分析流程將如圖 5 所示。

圖 5 動態預測分析流程說明步驟二

而決策樹演算法可以用修剪長度來進行模型優化,然而依預測情境不同等狀 況適合的決策樹長度可能不同,導致在預測準確率上也會有所差異,因此在機器 學習中也會進行不同決策樹長度設定來找出最佳預測準確率組合。故綜上所述,

進階的動態預測分析流程將依序為:資料蒐集、資料清洗與整理、依時間點不同(即 動態)將資料分組、依組別各自進行演算法預測(同時進行交叉驗證與參數優化),

而後者多以撰寫程式多重迴圈方式來取得最佳平均預測準確率。如圖 6 所示。

事實上透過圖 6 流程設計後,本研究將會挑出驗證組中平均預測準確率最高 且其決策樹最短者,作為動態預測的預測準確率。如圖 7 所示,本研究將挑出平 均預測準率最高的 86%作為募資天數百分比為 10%的動態預測表現,而最佳的決 策樹長度即平均預測準確率下最短的決策樹長度,挑選長度 4 作為代表。

圖 7 決策樹長度優化及預測準確率挑選示意

最後若依照動態預測時間軸上的不同,本研究的分析流程可分為兩種類型,

如圖 8 及圖 9 圖 9 所示,待爬蟲採集完資料並整理成專案完整歷程資料後將會進 行三個迴圈的運算,第一個迴圈依模型不同而拆分成依募資天數百分比及募資第 N 天分別進行決策樹模型優化及預測率驗證;第二個迴圈為修剪決策樹長度優化 之,優化方式為重複進行決策樹長度 1 至 8 層的機器學習訓練,找出平均預測準 確率最高的長度作為其優化設定;第三個迴圈則是交叉驗證法,以輪流將樣本做 驗證組來確認其模型預測準確率的平均值。

因此在 1 號最內層的虛線範圍裡,可得知給定募資天數百分比/募資第 N 天及 給定決策樹長度下的平均預測準確率;在 2 號中間層的虛線範圍裡,則可得知給 定募資天數百分比/募資第 N 天的狀況下,最合適的決策樹長度、平均預測準確率 及關鍵變數與閾值為何;而在 3 號最外層的虛線範圍內,則可進一步描繪出隨著 募資天數百分比/募資第 N 天的增長下,平均預測準確率將會如何變化,並進一步 與過往動態預測分析文獻做比較。

圖 8 募資天數百分比模型的分析流程

圖 9 募資第 N 天模型的分析流程

相關文件