3. 研究方法
3.4 訓練測試階段
國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
算處理,需單獨流程(single process)處理完成。而網路探勘暨情緒分析部 份,每個 mining 運算互不干援,故採 map-reduce 方式進行。
綜上因素考量,本研究建構巨量資料分析運算平台系統,以 Open Source 為基礎建構,而軟體框架部份選用 Apache Hadoop 開源軟體框架,資料管理與 儲存技術選用 HBase 分散式資料庫,資料分析方法開發以 Java 程式單獨流程執 行,以及 Elastic search 方式分散式運算完成,建立具備自主分散式處理之高效 能巨量資料運算平台整體解決方案。
3.4 訓練測試階段
本階段主要涵蓋三個主要步驟為來源資料選用並自動讀入、資料來源進行 ELTL(Extract, Load, Transform, Load)、資料分析方法進行訓練測試。
表 3-4:訓練測試階段(The Training and Testing Phase)
Step 1 : 來源資料選用並自動讀入
Step 2: 來源資料進行 ELTL(Extract, Load, Transform, Load)
Step 3: 依資料分析方法進行訓練測試
3.4.1 股票交易策略模型
步驟 1:來源資料選用並自動讀入
EPSO 股票交易策略模型訓練是從台灣上市股票市場按類別區分為 33 類,
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
價高中低每類每群隨機挑選樣本,從這些樣本資料標的中之每日收盤價作為資 料來源,自動載入每日股票交易資料(含開盤價、收盤價、最高價、最低價、
成交量等),作為 EPSO 訓練與測試之資料來源。
步驟 2:資料來源進行 ELTL(Extract, Load, Transform, Load)
本步驟是整理並取得資料子集合的資料以進行知識發掘,主要是將資料子集 合的相關資料欄位進行處理,處理內容包括去除干擾資料(removing noise)、處 理缺漏資料(handling missing data fields)、彙整資料子集合資訊(collecting required information to model)、計算時間及已知變化的資訊(calculating time information and known changes)(Begoli and Horey, 2012)。
在本研究是對於從網頁讀入之每日股票交易資料,去除干擾資料(removing noise)並處理,將每家股票的每日收盤價、日期整理存入分散式儲存資料庫中。
步驟 3:訓練測試階段
EPSO 演算法之每家股票完整實驗,分為訓練期(Training Period)與測試 期(Testing Period)。訓練期每家股票執行 γ 次訓練實驗(run),每次訓練實 驗(run)均執行 1,000 次演化,再從 γ 次訓練實驗之最好的演化決策解,拆解 為各 2γ 個買賣子策略並重複排列組合,挑選出最好的演化決策進行測試。此外 同時執行 MMPSO 演算法股票交易策略、Kenndey PSO 演算法股票交易策略與 長期持有交易策略,分別對四種策略測試期間之投資報酬率進行比較。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
EPSO 參數設定部份,EPSO 演算法粒子個數參數為 n 個粒子,每個粒子以 Xi表示之。每個粒子 Xi內記憶二組資料,一是 8 個 SMA 變動天數位置
(position),分別以 XiT表示,XiT參數範圍為 Xmin至 Xmax天間,1≤i≤n,
1≤T≤8。另一組是對應 8 個 SMA 變動天數位置的速度參數(velocity),以 ViT
表示 。亦即 ViT代表 XiT參數之移動方向與速度,其範圍設定為 Vmin至 Vmax
間,1≤i≤n,1≤T≤8。c1 為粒子自信係數設定為 2(一般研究常用係數),c2為 粒子社會信心係數設定為 2(一般研究常用係數)。ω 為慣性權重值係數設定 為 1.4,依實驗執行次數(runs)遞減至 0.4。
3.4.2 股票選擇策略模型
3.4.2.1 EPSO-GHSOM 股票選擇策略模型
步驟 1:來源資料選用並自動讀入
EPSO-GHSOM 股票選擇策略模型以台灣上市股票按類別區分為 33 類,除 5 類屬於憑證指數類別,非公司概念,無個股基本財務資料可供分析外,其餘 28 類作為選用樣本來源,每類股票依該類股按股價高中低隨機作為樣本來源,
從這些樣本資料標的於台灣證交所公佈財務報告及投顧公司次級資料作為訓練 測試資料來源。
步驟 2:資料來源進行 ELTL(Extract, Load, Transform, Load)
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
本步驟是從證券交易所網頁讀取財務報告資料,經計算成為本研究關心之財 務指標,並將每家股票的每年財務指標值、年度依序整理存入分散式儲存資料庫 中。
步驟 3:訓練測試階段
GHSOM 訓練目的主要運用樣本資料及本研究所選用之區別變動,建立一 個可以接受的 GHSOM 樹,而這 GHSOM 樹的每個葉節點,均計算兩個統計值
(平均數與標準差),以形成在此訓練樣本基礎下之最優分類規則,並提取特 徵,建立基於一空間關係之分類(葉節點)。
在廣度參數(τ1)和深度參數(τ2)調校找出最佳分群參數部份,如何得到 一可以被接受之 GHSOM 樹,亦即得到在一空間關係下之最優分類規則,關鍵 在廣度參數(τ1)和深度參數(τ2)如何調校,找出最佳分群參數。GHSOM 演 算法需要對廣度參數(τ1)和深度參數(τ2)進行訓練,找出最適規則。
3.4.2.2 網路探勘暨情緒分析股票選擇策略模型
步驟 1:來源資料選用並自動讀入
網路探勘暨情緒分析(Web Mining with Sentiment Analysis)股票選擇策略 模型,是經 EPSO-GHSOM 模型篩選優質安全的股票標的,以篩選後之股票標 的自網路財經網站搜尋讀取財經新聞評價資料,作為訓練測試資料來源。
步驟 2:資料來源進行 ELTL(Extract, Load, Transform, Load)
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
本步驟是將自網路財經網站搜尋讀取財經新聞評價資料,去除 html tag 等雜 訊處理。
步驟 3:訓練測試階段
本步驟是建立股票正負評價中文關鍵字庫,將經過 ELTL(Extract, Load, Transform, Load)後之網路財經新聞資料,經由股票正負中文關鍵字庫比對剖 析,辦識其正向及負向情緒評價並計算分數,最後將股票的所得評價分數、公 司出現次數存入分散式儲存資料庫中。